REDES 
МЕШИН 


ЕЕ e prática 





Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


SIMON HAYKIN 
McMaster University 
Hamilton, Ontário, Canadá 


2° Edição 


DES 
NEURAIS 


Princípios e prática 


Tradução: 
Paulo Martins Engel 
Doutor em Engenharia Elétrica pela Technische Universität München, Alemanha 
Pós-Douterado em Redes Neurais pela Technische Hochshule, Darmstadt, Alemanha 
Professor do Instituto de Informática da UFRGS 


Reimpressão 2008 


Y 


bookman' 





This One 


um O AN 
| 
TXA6 29D 


-45T-E 











Obra originalmente publicada sob o título 
Neural networks: a comprehensive foundation, ME 


É 1999, Prentice Hall, Inc. 
Publicado em língua portuguesa conforme acordo com a Prentice Hall, Inc., uma empresa Pearson Education 


ISBN 0-13-2/3350-1 

Capa: Mário Rofinelt 

Preparação do original: Daniel Grassi 
Supervisão editorial: Arysinha Jacques Affonso 


Editoração eletrónica: Laser House — mao, 


O autor e o editor empreenderam os seus melhores esforços na preparação deste livro. 

Estes esforços incluem o desenvolvimento, à pesquisa c o teste das teorias e programas para determinar 

à sua eficiência. O autor e o editor não dão garantias de qualquer tipo, explícitas ou implicitas, em relação 
à estes programas ou à documentação contida neste livro. O autor e o editor não se responsabilizam 


por danos eventuais ou consegiiéncias em conexão com, ou que seriam do fornecimento, 
desempenho ou uso destes programas. 


Reservados todos os direitos de publicação, em lingua portuguesa, à 

ARTMED” EDITORA $. A. 

(BOOKMAN* COMPANHIA EDITORA é uma divisão da ARTMED" EDITORA S.A.) 
Av. Jerônimo de Ornelas, 670 - Santana 

90040-340 Porto Alegre RS 

Fong (51) 4827-9000 Pax (51) 3027-7070 


É proibida a duplicação ou reprodação deste volume, no todo ou em parte, sob quaisquer 
formas ou por quaisquer meios (eletrônico, mecánico, gravação, fotocópia, distribuição na 
Web e outros), sem permissão expressa da Editora. 


SÃO PAULO 

Av. Angélica, 1091 - Higienópolis 
(1227-100 São Paula SP 

Fone (11) 3665-1100. Fax (11) 3667-1333 


SAC 0800 703-3444 


IMPRESSO NO BRASIL 
PRINTED IN BRAZIL 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


ХҮІ ABREVIAÇÕES E SÍMBOLOS 


r (j, kn) 
Fn) 
R 


função de densidade de probabilidade do vetor aleatório X 

subconjunto (rede) com o menor risco empírico minimo 

matriz hessiana 

inversa da matriz H 

raiz quadrada de -1, também representado por / 

matriz identidade 

matriz de informação de Fisher 

erro médio quadrado 

matriz jacobiana 

matriz de covariância do erro na teoria do filtro de Kalman 

raiz quadrada da matriz К 

transposta da raiz quadrada da matriz K 

constante de Boltzmann 

logaritmo 

logaritmo da função de verossimilhança do vetor w 

logaritmo da função de verossimilhança do vetor w baseada em um único exemplo 

matriz de controlabilidade 

matriz de observabilidade 

tempo discreto 

probabilidade do estado ¡em mecânica estatística 

probabilidade de transição do estado i para o estado j 

matriz estocástica 

probabilidade de classificação correta 

probabilidade de erro 

probabilidade condicional de erro e dado que a entrada é retirada da classe € 

probabilidade que os neurônios visíveis de uma máquina de Boltzmann estejam 
no estado ot, dado que a rede esteja ná sua condição presa (i.e., fase positiva) 

probabilidade que os neurônios visíveis de uma máquina de Boltzmann estejam 
no estado «x, dado que a rede esteja na sua condição livre (i.e., fase negativa) 

estimativa da função de autocorrelação de x (n) e x (м) 

estimativa da função de correlação cruzada de nm) e хп) 

matriz de correlação de um vetor de entrada 

tempo continuo 

temperatura 

conjunto de treinamento (amostra) 

traço de um operador matricial 

operador variância 

função de Lyapunov do vetor de estado x 

campo local induzido ou potencial de ativação do neurônio ў 

valor ótimo do vetor de pesos sinápticos 

peso sináptico da sinapse / pertencente ao neurônio k 

vetor de peso ótimo 

valor de equilíbrio do vetor de estado x 

média do estado x, em um sentido "térmico" 

estimativa de x, representada por um circunflexo 

valor absoluto (magnitude) de x 


Hidden page 


Hidden page 


Sumårio 


1 introdução 27 


1.1 O que é uma Rede Neural? 27 

12 D Cérebro Н 32 

L3 Modelos d Neuröni 36 

1.5  Realimentagáo 44 

1.6 — Arquiteturas de Rede 46 

1.7 Representação do Conhecimento 49 

1.8 Inteligencia Artificial e Redes Neurais 59 





2 Processos de Aprendizagem 75 


2.1 Introdução 75 

22 Aprendizagem por Corregäo de Erro. 76 
2.3 Aprendizagem Bascada em Memória 78 
24 Aprendizagem Hebbiana 80 

2.5 Aprendizagem Competitiva 83 

2.6 Aprendizagem de Boltzmann 86 

21.7 O Problema de Atribuigào de Crédito 87 
2.8  Aprendizagem com um Professor 88 
2.9 Aprendizagem sem um Professor — 89 


XX SUMÁRIO 


2.10 — Tarefas de Aprendizagem 91 
511 Memia 100 
2.12 Adaptação 108 
2.13 Natureza Estatistica do Processo de Aprendizagem 110 
2.14 Teoria Estatistica da Aprendizagem 114 
2.15 Modelo de Aprendizagem Provavelmente Aproximadamente Coreto 127 
216 Ro Di ão 13] 
Problemas 137 


З Perceptrons de Camada Única 143 


3.4 Introdução 143 

3.2  O Problema da Filtragem Adaptativa 144 

3.3 Técnicas de Otimização Irrestritas 147 

3.4 Filtro Linear de Minimos Quadrados 152 

35  Algoritmo do Minimo Quadrado Médio 155 

3.6 Curvas de Aprendizagem 159 

3.7 | Estratégias de Variação da Taxa de Aprendizagem 161 

3.8 О Perceptron 161 

3.9 Teorema de Convergência do Perceptron 163 
3.10 _ Relação entre o Perceptron e o Classificador Bayesiano para um Ambiente 
411 E Di » 175 

Problemas 177 


4 Perceptrons de Múltiplas Camadas 183 


4.1 Introdução 185 
4.2  Algumas Considerações Preliminares 186 
43 Algoritmo de Retropropagação 188 


4.4 Resumo do Algoritmo de Retropropagação — 200 
45  QOfProblemado XOR 202 


4.6 Heuristicas para Melhorar o Desempenho do Algoritmo de Retropropagação — 205 
4.7 | Representação da Saida e Regra de Decisão 211 
4.8 Experimento Computacional 214 
4.9 Detecção de Caracteristicas 225 
410  Retropropagação e Diferenciação 228 
ALLA Matriz Hessiana 230 > 


4.12 Generalizagdo 232 
4.13 Aproximação de Funções 234 
4.14 Validação Cruzada 239 
Técni le Poda de Rede 2 
4.16 — Virtudes e Limitações da Aprendizagem por Retropropagação 252 
4.17 Aceleração da Convergência da Aprendizagem por Retropropagação 259 


SUMÁRIO — XXI 


4.18 Aprendizagem Su isionada Vista como um Problema de Otimização — 260 





5 Redes de Função de Base Radial 283 


5.1 Introdução 283 
5.2 О Teorema de Cover sobre a Separabilidade de Padrões 284 
53 О Problema de interpolação 290 
5.4 А Aprendizagem Supervisionada como um Problema de Reconstrução de 
Hipersuperficie Malformulado 293 
5.5 А Teoria da Regularização 294 
5.6 Redes de Regularização 305 
5,7 Redes de Função de Base Radial Generalizadas 307 
5.8 О Problema do XOR (Revisitado) 311 
5.9 Estimação do Parâmetro de Regularização 314 
5.10 Propriedades Aproximativas das Redes RBF 320 
5.11 Comparação entre Redes RBF e Perceptrons de Múltiplas Camadas 323 


5.12 Regressão de Núcleo e sua Relação com as Redes RBF 323 
5.13 Estratégias de Aprendizagem 328 


5.14 Experimento Computacional: Classificação de Padrões 336 
5.15 Resumo e Discussão 337 

Notas e Referências 339 

Problemas 343 


б Máquinas de Vetor de Suporte 349 


6.1 Introdução 349 

6.2 — Hiperplano Ótimo para Padrões Linearmente Separáveis 350 

6.3  Hiperplano Otimo para Padrões Nào-Separáveis— 357 

6.4 Como Construir uma Máquina de Vetor de Suporte para Reconhecimento de 
Padrües 361 

6.5 Exemplo: O Problema do XOR (Revisitado) 367 

6.6 Experiments Computacional 369 

6.7 Função de Perda Insensivela e 372 


6.8 — Máquinas de Vetor de Suporte para Regressão Náo-Linear 373 
6.9 Resumo е Discussão 376 


Problemas 381 


Y Máquinas de Comitê 385 


7.1 Introdução 385 
7.3 Media de Ensemble 387 


xxi 


9 


+ 
1 


SUMÁRIO 


7.3 Experimento Computacional I 390 
TA Reforço 39] 


7,5 Experimento Computacional II 398 
7.7 Modelo de Mistura Hierárquica de Especialistas 406 
78 Seleção de Modelo Usando uma Arvore de Decisão Padrão 408 
7.10 Estimação por Máxima Verossimilhanga 413 
7.11 Estratégias de Aprendizagem рага o Modelo МНЕ 415 
7.42  OAlgoritmo ME 417 
7.13 Aplicação do Algoritmo ME ao Modelo MHE 415 


7.14 Resumo e Discussão 42] 
oras p Referéncias 423 


Problemas 425 


Análise de Componentes Principais 


8.1 Introdução 429 

8.2  Alguns Principios Intuitivos de Auto-Organizacio 430 

8.3 Análise de Componentes Principais 433 

8.4 Autofiltro Máximo Baseado na Aprendizagem Hebbiana 442 


429 


8.5 Análise de Componentes Principais Baseada na Aprendizagem Hebbiana 452 


8.6 Experimento Computacional: Codificação de Imagem 458 


8.7  Anilise de Componentes Principais Adaptativa Usando Inibição Lateral 461 


8.8 Duas Classes de Algoritmos de ACP 469 
8.9 Métodos de Computação por Lote e Adaptativo 470 


8.10 Anaälıse de Componentes Principais por Núcleo 472 
"ET R Di = 177 


Mapas Auto-Organizáveis 


9.1 Introdução 483 
9.27 Dois Modelos Básicos de Mapeamento de Caracteristicas 484 





93 О Mapa Auto-Organizável 486 
0.4 Resumo do Algoritmo SOM — 493 
9.5 Propriedad ex do Mapa de Caracteristicas 494 


9.6 Simulações Computacionais 502 
9.7 vantizacáo Vetorial por Aprendizagem 506 


9.8 Experimento Computacional: Classificação Adaptativa de Padrões 508 








9.9  Quantização Vetorial Hierárquica 510 
9.10 — Mapas Contextuais 514 
9.11 Resumo e Discussão Slå 
Notas e Referências 517 
Problemas 51% 


Sumário ХХі 


10 Modelos Teóricos da Informação 525 


10.1 Introdução 525 

10.2 Entropia 526 

10.3 O Princípio da Máxima Entropia 53] 

10.4 Informação Mútua 534 

10.5  Divergéncia de Kullback-Leibler 537 

10.6 Informação Mútua como uma Função Objetivo a Ser Otimizada 540 
10.7 Principio da Máxima Informação Mútua 541 

10.8 Infomax e Redução de Redundância 546 


10.9 Caracteristicas Espacialmente Coerentes 549 
10.10 Caracteristicas Espacialmente Incoerentes 551 
10.11 Análise de Componentes Independentes 553 
10.12 Experimento Computacional 568 
10.13  Estimagáo por Máxima Verossimilhanga 570 
10.14 Método da Máxima Entropia 572 

Problemas 587 


11 Máquinas Estocásticas e suas Aproximações 
Baseadas na Mecânica Estatistica 591 


11.4 Introdução 59] 
11.2 А Mecánica Estatistica 592 


11.3 Cadeias de Markov 595 
11.4 OAlgoritmo Metropolis 603 
11.5  Recozimento Simulado 606 
11.6 Amostragem de Gibbs 608 
11.7 A Máquina de Boltzmann 610 
11.8 — Redes de Crença Sigmóide 617 
11.9 A Máquina de Helmholtz 622 
11.10 А Teoria do Campo Médio 623 
11.11 A Máquina de Boltzmann Deterministica 626 
11.12 Redes de Crença Sigmóide Deterministicas 627 
11.13  Recozimento Deterministico 634 
11.14 Resumo e Discussão 040 
Notas e Referências 642 
Problemas 645 


12 Programação Neurodinâmica 651 


12.1 Introdução 651 
12.3  O Critério de Otimização de Bellman 655 
12.4  lteracáo de Politica 659 


xxiv SUMÁRIO 


12.5  lteracáo de Valor 661 
12.6 Programação Neurodinámica 666 
12.7 Iteracåo de Politica Aproximada 668 
12.8 Aprendizagem Q 671 
12.9 Experimento Computacional 676 
12,10 Resumo e Discussão 679 
Notas e Referências 681 
Problemas 682 


13 Processamento Temporal Utilizando Redes Alimentadas Adiante 685 


13.1 Introdução 685 
13.2 Estruturas de Memória de Curto Prazo 686 
13.3  Arquiteturas de Rede para Processamento Temporal 691 
13.4 Redes Alimentadas Adiante Focadas Atrasadas no Tempo 693 
13.5 Experimento Computacional 696 
13.6 Teorema do Mapeamento Miope Universal 696 
13.7 Modelos Espaço-Temporais de um Neurónio 698 
13.8 — Redes Alimentadas Adiante Atrasadas no Tempo Distribuidas 702 
13.9  Algoritmo de Retropropagação Temporal 703 
13.10 Resumo e Discussão 710 
Notas e Referências 711 
Problemas 712 


14 Neurodinämica 715 


14.1 Introdução 715 
14,2 Sistemas Dinâmicos 717 
14.3 Estabilidade de Estados de Equilibrio 720 
14.4  Atratores 726 
14.5 Modelos Neurodinâmicos 727 
14.6 Manipulação de Atratores como um Paradigma de Rede Recorrente 730 
14.7 O Modelo de Hopfield 732 
14.8 Experimento Computacional | 749 
14.9 Teorema de Cohen-Grossberg 754 
14.10 О Modelo do Estado Cerebral em uma Caixa 755 
14.11 Experimento Computacional II 762 
14.12  Atratores Estranhos e Caos 762 
14.13 Reconstrução Dinâmica 768 
14.14 Experimento Computacional II 772 
14.15  Resumo e Discussão 775 
Notas e Referências 778 
Prohlemas 780 


SUMARIO 


15 Redes Recorrentes Dirigidas Dinamicamente 


15.1 
15.2 
15,3 
15.4 
15.5 
15.6 
15.7 
15.8 
15.9 
15.10 
15.11 
15.12 
15.13 
15.14 
15.15 


Epilogo 849 


Introdução 787 

Arquiteturas de Redes Recorrentes 738 

О Modelo de Espaço de Estados 794 

Modelo Auto-Regressivo Não-Linear com Entradas Exógenas 802 
O Poder Computacional das Redes Recorrentes 504 
Algoritmos de Aprendizagem 805 

Retropropagação Através do Tempo 808 
Aprendizagem Recorrente em Tempo Real 812 
Filtros de Kalman 819 

Filtro de Kalman Estendido Desacoplado 823 
Experimento Computacional 82% 

Extinção de Gradientes em Redes Recorrentes 831 
Identificação de Sistemas 834 

Controle Adaptativo por Referência a Modelo 836 
Resumo e Discussão 840 

Notas e Referências 841 

Problemas 843 


Bibliografia 855 


Índice 893 


XXV 


787 


Hidden page 


CAPÍTULO 1 


Introducåo 


1.1 O QUE É UMA REDE NEURAL? 


O trabalho em redes neurais artificiais, usualmente denominadas “redes neurais”, tem sido motiva- 
do desde o começo pelo reconhecimento de que o cérebro humano processa informações de uma 
forma inteiramente diferente do computador digital convencional. O cérebro é um computador 
(sistema de processamento de informação) altamente complexo, não-linear e paralelo. Ele tem a 
capacidade de organizar seus constituintes estruturais, conhecidos por neurônios, de forma a reali- 
zar certos processamentos (p.ex., reconhecimento de padrões, percepção e controle motor) muito 
mais rapidamente que o mais rápido computador digital hoje existente. Considere, por exemplo, a 
visão humana, que é uma tarefa de processamento de informação (Marr, 1982; Levine, 1985; 
Churchland e Sejnowski, 1992). A função do sistema visual é fornecer uma representação do ambi- 
ente à nossa volta e, mais importante que isso, fornecer a informação de que necessitamos para 
interagir com o ambiente, Para sermos específicos, o cérebro realiza rotineiramente tarefas de reco- 
nhecimento perceptivo (p. ex., reconhecendo um rosto familiar inserido em uma cena náo-familiar) 
em aproximadamente 100-200 ms, ao passo que tarefas de complexidade muito menor podem levar 
dias para serem executadas em um computador convencional. 

Como outro exemplo, considere o sonar de um morcego. O sonar é um sistema ativo de loca- 
lização por eco. Além de fornecer informações sobre a distância até um alvo (p. ex., um inseto 
voador), o sonar de um morcego transmite também informação sobre a velocidade relativa do alvo, 
o tamanho do alvo, o tamanho de várias caracteristicas do alvo e o azimute е a elevação do alvo 
(Suga, 1990a, b). A complexa computação neural necessária para extrair toda essa informação do 
eco do alvo ocorre no interior de um cérebro do tamanho de uma ameixa. De fato, um morcego 
guiado por eco pode perseguir e capturar seu alvo com uma facilidade e taxa de sucesso que são de 
causar inveja a um engenheiro de radar ou sonar. 

Como, entào, um cérebro humano ou o cérebro de um morcego faz isso? No momento do 
nascimento, um cérebro tem uma grande estrutura е a habilidade de desenvolver suas próprias re- 
gras através do que usualmente denominamos “experiência”. Na verdade, a experiência vai sendo 
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acumulada com o tempo, sendo que o mais dramático desenvolvimento (1. e., por ligações fisicas) 
do cérebro humano acontece durante os dois primeiros anos de vida; mas o desenvolvimento conti- 
nua para muito além desse estágio. 

Um neurônio em “desenvolvimento” é sinônimo de um cérebro plástico: a plasticidade permi- 
te que o sistema nervoso em desenvolvimento se adapte ao seu meio ambiente. Assim como a 
plasticidade parece ser essencial para о funcionamento dos neurônios como unidades de 
processamento de informação do cérebro humano, também ela o é com relação às redes neurais 
construídas com neurônios artificiais. Na sua forma mais geral, uma rede neural é uma máquina 
que é projetada para modelar a maneira como o cérebro realiza uma tarefa particular ou função de 
interesse; a rede é normalmente implementada utilizando-se componentes eletrônicos ou é simula- 
da por programação em um computador digital. Nosso interesse nesse livro está restrito a uma 
classe importante de redes neurais que realizam computação útil através de um processo de apren- 
dizagem. Para alcançarem bom desempenho, as redes neurais empregam uma interligação maciça 
de células computacionais simples denominadas “neurônios” ou “unidades de processamento”. Nós 
podemos então oferecer a seguinte definição de uma rede neural vista como uma máquina adaptativa": 


Uma rede neural ё um processador maciçamente paralelamente distribuido constituido de unida- 
des de processamento simples, que tém a propensão natural para armazenar conhecimento experi- 
mental e torná-lo disponível para o usa. Ela se assemelha ao cérebro em dois aspectos: 


1. О conhecimento é adquirido pela rede a partir de seu ambiente através de um processo de 
aprendizagem. 

2. Forças de conecdo entre neurônios, conhecidas como pesos sindpticos, são utilizadas para 
armazenar o conhecimento adquirido. 


O procedimento utilizado para realizar o processo de aprendizagem é chamado de algoritmo de 
aprendizagem, cuja função é modificar os pesos sinápticos da rede de uma forma ordenada para 
alcançar um objetivo de projeto desejado. 

А modificação dos pesos sinápticos ё o método tradicional para o projeto de redes neurais. 
Esta abordagem é bastante próxima da teoria dos filtros adaptativos lineares, que já está bem 
estabelecida e foi aplicada com sucesso em diversas áreas (Widrow e Stearns, 1985; Haykin, 1996). 
Entretanto, é possivel também para uma rede neural modificar sua própria topologia, o que é moti- 
vado pelo fato de os neurónios no cérebro humano poderem morrer e que novas conexóes sinápticas 
possam crescer. 

As redes neurais são também referidas na literatura como neurocomputadoeres, redes 
conexionistas, processadores paralelamente distribuidos, etc. Em todo este livro, usamos o termo 
"redes neurais”, ocasionalmente o termo "neurocomputador" ou "rede conexionista" é usado. 


Benefícios das Redes Neurais 


É evidente que uma rede neural extrai seu poder computacional através, primeiro, de sua estrutura 
maciçamente paralelamente distribuida e segundo de sua habilidade de aprender e portanto de ge- 
neralizar. A generalização se refere ao fato de a rede neural produzir saidas adequadas para entradas 
que não estavam presentes durante o treinamento (aprendizagem). Estas duas capacidades de 
processamento de informação tornam possível para as redes neurais resolver problemas complexos 
(de grande escala) que são atualmente intratáveis. Na prática, contudo, as redes neurais não podem 
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fornecer uma solução trabalhando individualmente. Em vez disso, elas precisam ser integradas em 
uma abordagem consistente de engenharia de sistemas. Especificamente, um problema complexo 
de interesse é decomposto em um número de tarefas relativamente simples, e atribui-se a redes 
neurais um subconjunto de tarefas que coincidem com as suas capacidades inerentes. Entretanto, é 
importante reconhecer que nós temos um longo caminho a percorrer antes de construirmos (se 
porventura conseguirmos) uma arquitetura computacional que mimetize um cérebro humano. 

О uso de redes neurais oferece as seguintes propriedades úteis e capacidades: 


1. Näo-linearidade. Um neurônio artificial pode ser linear ou não-linear. Uma rede neural, cons- 
tituída por conexões de neurônios não-lineares é ela mesma não-linear. Além disso, a nào-linearidade 
é de um tipo especial, no sentido de ela ser distribuida por toda a rede. А não-linearidade ё uma 
propriedade muito importante, particularmente se o mecanismo físico responsável pela geração do 
sinal de entrada (p. ex., sinal de voz) for inerentemente não-linear. 

2 Mapeamento de Entrada-Saida. Um paradigma popular de aprendizagem chamado aprendi- 
zagem com um professor ou aprendizagem supervisionada envolve a modificação dos pesos sinápticos 
de uma rede neural pela aplicação de um conjunto de amostras de treinamento rotuladas ou exem- 
plos da tarefa. Cada exemplo consiste de um sinal de entrada único e de uma resposta desejada 
correspondente, Apresenta-se para a rede um exemplo escolhido ao acaso do conjunto, e os pesos 
sinápticos (parâmetros livres) da rede são modificados para minimizar a diferença entre a resposta 
desejada e a resposta real da rede, produzida pelo sinal de entrada, de acordo com um critério 
estatístico apropriado. O treinamento da rede é repetido para muitos exemplos do conjunto até que 
a rede alcance um estado estável onde não haja mais modificações significativas nos pesos sinápticos. 
Os exemplos de treinamento previamente aplicados podem ser reaplicados durante a sessão de 
treinamento, mas em uma ordem diferente. Assim, a rede aprende dos exemplos ao construir um 
mapeamento de entrada-saida para o problema considerado, Tal abordagem nos faz lembrar do 
estudo de inferência estatística não-paramétrica, que é um ramo da estatística que trata da estima- 
ção independente de modelo, ou, do ponto de vista biológico, aprendizagem tabula rasa (German 
et. Al., 1992); o termo "nào-paramétrico" é utilizado aqui para significar o fato de que não são feitas 
suposições prévias sobre o modelo estatístico dos dados de entrada. Considere, por exemplo, uma 
tarefa de classificação de padrões, na qual o objetivo seja atribuir um sinal de entrada representando 
um objeto fisico ou evento a uma entre várias categorias (classes) preestabelecidas. Em uma abor- 
dagem não-paramétrica para este problema, o objetivo é “estimar” fronteiras de decisão arbitrárias 
no espaço do sinal de entrada para a tarefa de classificação de padrões utilizando um conjunto de 
exemplos, e fazê-lo sem invocar um modelo de distribuição probabilistico. Um ponto de vista simi- 
lar estã implicito no paradigma de aprendizagem supervisionada, o que sugere uma analogia próxi- 
ma entre o mapeamento de entrada-saida realizado por uma rede neural e a inferência estatistica 
não-paramétrica. 

3. Adaptabilidade. As redes neurais têm uma capacidade inata de adaptar seus pesos sinápticos 
a modificações do meio ambiente. Em particular, uma rede neural treinada para operar em um 
ambiente especifico pode ser facilmente retreinada para lidar com pequenas modificações nas con- 
dições operativas do ambiente, Além disso, quando está operando em um ambiente näo-estaciond- 
rio (i. €., onde as estatísticas mudam com o tempo), uma rede neural pode ser projetada para modi- 
ficar seus pesos sinápticos em tempo real. A arquitetura natural de uma rede neural para classifica- 
ção de padrões, processamento de sinais e aplicações de controle, aliada à capacidade de adaptação 
da rede, a torna uma ferramenta muito útil para classificação adaptativa de padrões, processamento 
adaptativo de sinais e controle adaptativo. Como regra geral, pode-se dizer que quanto mais adaptativo 
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se fizer um sistema, assegurando-se de que o sistema se mantenha estável, mais robusto tenderá a 
ser o seu desempenho quando o sistema for exigido a operar em um ambiente nào-estacionário. 
Contudo, deve ser enfatizado, que adaptabilidade nem sempre resulta em robustez; na verdade pode 
resultar no contrário. Um sistema adaptativo com constantes de tempo pequenas, por exemplo, 
pode se modificar rapidamente e assim tender a responder a perturbações espúrias, causando uma 
drástica degradação no desempenho do sistema. Para aproveitar todos os beneficios da adaptabili- 
dade, as constantes de tempo principais do sistema devem ser grandes o suficiente para que 0 siste- 
ma ignore perturbações espúrias mas ainda assim serem suficientemente pequenas para responder a 
mudanças significativas no ambiente; o problema aqui descrito é referido como o dilema da estabi- 
lidade-plasticidade (Grossberg, 1988b). 

4. Resposta a Evidencias. No contexto de classificação de padrões, uma rede neural pode ser 
projetada para fornecer informação não somente sobre qual padrão particular selecionar, mas tam- 
bém sobre a confiança ou crença na decisão tomada. Esta última informação pode ser utilizada para 
rejeitar padrões ambiguos, caso eles estejam presentes, e com isso melhorar o desempenho de clas- 
sificação da rede. 

5. Informação Contextual, O conhecimento é representado pela própria estrutura e estado de 
ativação de uma rede neural. Cada neurônio da rede é potencialmente afetado pela atividade de 
todos os outros neurônios na rede. Consequentemente, a informação contextual é tratada natural- 
mente pela rede neural. 

6. Tolerância a Falhas. Uma rede neural, implementada na forma fisica (em hardware), tem o 
potencial de ser inerentemente tolerante a folhas, ou capaz de realizar computação robusta, no 
sentido de que seu desempenho se degrada suavemente sob condições de operação adversas. Se um 
neurônio ou suas conexões são danificados, por exemplo, a recuperação de um padrão armazenado 
é prejudicada em qualidade, Contudo, devido à natureza distribuida da informação armazenada na 
rede, o dano deve ser extenso para que a resposta global da rede seja degradada seriamente. Assim, 
a princípio, uma rede neural exibe uma degradação suave do desempenho em vez de apresentar uma 
falha catastrófica, Hà algumas evidências empíricas para a computação robusta, mas geralmente ela 
não é controlada. Para se assegurar que uma rede neural seja de fato tolerante a falhas pode ser 
necessário adotar-se medidas corretivas no projeto do algoritmo utilizado para treinar a rede (Kerlirzin 
e Vallet, 1993). 

7. Implementação em FLSI A natureza maciçamente paralela de uma rede neural a faz ser 
potencialmente rápida na computação de certas tarefas. Esta mesma caracteristica torna uma rede 
neural adequada para implementação utilizando tecnologia de integração em escala muito ampla. 
Uma virtude benéfica particular da tecnologia VLSI (very-large-scale-integration) é que ela forne- 
ce um meio de capturar comportamentos realmente complexos de uma forma altamente hierárqui- 
ca (Mead, 1989). 

B. Uniformidade de Análise e Projeto. Basicamente, as redes neurais desfrutam de universalida- 
de como processadores de informação. Dizemos 1550 no sentido de que a mesma notação é utilizada 
em todos os domínios envolvendo a aplicação de redes neurais. Esta caracteristica se manifesta de 
diferentes modos: 


* Os neurônios, de uma forma ou de outra, representam um ingrediente comum a todas as redes 
neurais. 

+ Esta uniformidade torna possível compartilhar teorias e algoritmos de aprendizagem em apli- 
cações diferentes de redes neurais. 

* Redes modulares podem ser construidas através de uma integração homogênea de módulos. 
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9. Analogia Neurobiológica. O projeto de uma rede neural é motivado pela analogia com o cére- 
bro, que é uma prova viva de que o processamento paralelo tolerante a falhas é não somente possivel 
fisicamente mas também rápido e poderoso. Os neurobiólogos olham para as redes neurais (artifi- 
ciais) como uma ferramenta de pesquisa para a interpretação de fenômenos neurobiológicos. Por 
outro lado, os engenheiros olham para à neurobiologia procurando novas idéias para resolver pro- 
blemas mais complexos do que aqueles baseados em técnicas convencionais de projeto por cone- 
xões fixas. Estes dois pontos de vista são ilustrados respectivamente pelos dois exemplos a seguir: 


e Em Anastasio (1993), modelos de sistemas lineares do reflexo vestibulo-ocular são compara- 
dos com modelos de redes neurais bascados em redes recorrentes, que são descritas na seção 
1.6 e discutidas em detalhe no Capítulo 15. O reflexo vestibulo-ocular (RFO) é parte do siste- 
ma oculomotor. A função do RYO é manter a estabilidade da imagem visual (i.e., retinal) 
fazendo rotações oculares opostas às rotações da cabeça, O RVO é mediado por neurônios 
pré-motores nos núcleos vestibulares que recebem e processam os sinais de rotação da cabeça 
advindos dos neurônios sensoriais vestibulares e enviam os resultados para os neurônios mo- 
tores do músculo ocular, О RVO é bem apropriado para modelagem porque a sua entrada 
(rotação da cabeça) e a sua saida (rotação ocular) podem ser especificadas precisamente. Ele é 
também um reflexo relativamente simples e as propriedades neurofisiológicas de seus neurônios 
constituintes se encontram bem descritas, Entre os três tipos neurais, os neurônios pré-moto- 
res (interneurónios de reflexo) nos núcleos vestibulares são os mais complexos e, portanto, os 
mais interessantes. O RVO foi modelado anteriormente utilizando descritores concentrados de 
sistemas lineares e a teoria de controle. Estes modelos foram úteis para explicar algumas das 
propriedades globais do RYO, mas forneciam pouco entendimento das propriedades dos seus 
neurônios constituintes. Esta situação melhorou substancialmente através da modelagem por 
rede neural. Modelos de redes recorrentes do RYO (programados utilizando um algoritmo 
chamado aprendizagem recursiva em tempo-real que é descrito no Capítulo 15) podem repro- 
duzir e ajudar a explicar muitos aspectos estáticos, dinâmicos, nào-Imeares e distribuidos do 
processamento de sinal pelos neurônios que medeiam o RWO, especialmente os neurônios dos 
núcleos vestibulares (Anastasio, 1993), 

+ Na retina, mais que em qualquer outra parte do cérebro, é onde nós começamos a agregar as 
relações entre o mundo externo representado por um sentido visual, sua imagem física proje- 
tada em um arranjo de receptores e as primeiras imagens neurais. À retina é uma folha fina de 
tecido neural que reveste o hemisfério posterior do globo ocular. A tarefa da retina é converter 
uma imagem ótica em uma imagem neural para ser transmitida através do nervo ótico para 
uma quantidade de centros para análise posterior. Esta é uma tarefa complexa, como evidenci- 
ado pela organização sináptica da retina. Nas retinas de todos os vertebrados, a transformação 
da imagem ótica em imagem neural envolve três estágios (Sterling, 1990): 

(i) Transdução da energia luminosa por uma camada de neurônios receptores. 
(Н) Transmissão dos sinais resultantes (produzidos em resposta à luz) por sinapses químicas 
para uma camada de células bipolares, 
(iii) Transmissão desses sinais, também por sinapses químicas, para neurônios de saída que 
são chamados de células ganglionares, 


Em ambos os estágios sinápticos (Le., das células receptoras para as células bipolares e das células 
bipolares para as ganglionares) há neurônios especializados conectados lateralmente chamados cg- 
lulas horizontais e células amderinas, respectivamente. A tarefa desses neurônios é modificar а 
transmissão através das camadas sinápticas. Há também elementos centrifugos chamados de celu- 
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las interplexiformes, sua tarefa é transmitir sinais da camada sináptica interna para à camada exter- 
na. Alguns poucos pesquisadores construiram circuitos eletrônicos que mimetizam a estrutura da 
retina (Mahowald e Mead, 1989; Boahen e Ardreou, 1992; Boahen, 1996). Estes circuitos eletrônicos 
são chamados de circuitos integrados neuromórficos, um termo cunhado por Mead (1989), Um 
sensor de imagem neuromórfico consiste de um arranjo de fotoreceptores combinados com circui- 
tos analógicos em cada elemento de imagem (pixel, picture element). Ele emula a retina na medida 
em que se adapta localmente a variações na luminância, detecta bordas e detecta o movimento. A 
analogia neurobiológica, exemplificada pelos circuitos integrados neuromórficos, é útil também de 
outro modo importante: ela fornece uma esperança e a crença, e de uma certa maneira a existência 
de prova, de que a compreensão fisica das estruturas neurobiológicas pode ter influência produtiva 
na arte da eletrónica e da tecnologia VLSI. 

Tendo em mente esta inspiração na neurobiologia, parece-nos apropriado examinarmos 
brevemente o cérebro humano e seus níveis estruturais de organização. 


1.2 О CÉREBRO HUMANO 


O sistema nervoso humano pode ser visto como um sistema de três estágios, como mostrado no 
diagrama em blocos da Fig. 1.1 (Arbib, 1987). O centro do sistema é o cérebro, representado pela 
rede neural (nervosa), que recebe continuamente informação, percebe-a e toma decisões apropria- 
das. Dois conjuntos de setas são mostrados na figura. Aquelas que apontam da esquerda para a 
direita indicam a transmissão para frente do sinal portador de informação, através do sistema. Ås 
setas apontando da direita para a esquerda indicam a presença de realimentacdo no sistema. Os 
receptores convertem estímulos do corpo humano ou do ambiente externo em impulsos elétricos 
que transmitem informação para a rede neural (cérebro). Os atuadores convertem impulsos elétricos 
gerados pela rede neural em respostas discerniveis como saidas do sistema. 
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FIGURA 1.1 Representação em diagrama em blocos do sistema nervoso 


О esforço para entender o cérebro ве tomou mais fácil pelo trabalho pioneiro de Ramón y 
Cajál (1911), que introduziu a idéia dos neurónios como constituintes estruturais do cérebro. Tipi- 
camente, os neurônios são de cinco a seis ordens de grandeza mais lentos que as portas lógicas em 
silicio; os eventos em um circuito de silicio acontecem na ordem de nanossegundos (105), enguan- 
to que eventos neurais acontecem na ordem de milissegundos (105). Entretanto, o cérebro com- 
pensa a taxa de operação relativamente lenta de um neurônio pelo número realmente espantoso de 
neurônios (células nervosas), com conexões maciças entre si. Estima-se que haja aproximadamente 
10 bilhões de neurônios no córtex humano e 60 trilhões de sinapses ou conexões (Shepherd e Koch, 
1990). O resultado livre é que o cérebro é uma estrutura extremamente eficiente. Mais especifica- 
mente, a eficiência energética do cérebro é de aproximadamente 10^ joules (J) por operação por 
segundo, enquanto que o valor correspondente para os melhores computadores em uso em nossos 
dias é de cerca de 10" joules por operação por segundo (Faggin, 1991). 

As sinapses são unidades estruturais e funcionais elementares que medeiam as interações 
entre os neurônios. O tipo mais comum de sinapse é a sinapse quimica, que opera da seguinte 
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forma: um processo pré-sináptico libera uma substância transmissora que se difunde através da 
junção sináptica entre neurônios e então age sobre um processo pós-sináptico. Assim, uma sinapse 
converte um sinal elétrico pré-sináptico em um sinal quimico e entào de volta em um sinal elétrico 
pós-sináptico (Shepherd e Koch, 1990). Na terminologia elétrica, um elemento assim é chamado de 
um dispositivo de dois terminais ndo-reciproco. Nas descrições tradicionais da organização neural, 
assume-se que uma sinapse é uma conexão simples que pode impor ao neurônio receptivo excitação 
ou inibição, mas não ambas. 

Anteriormente, mencionamos que a plasticidade permite que o sistema nervoso em desenvol- 
vimento se adapte ao seu meio ambiente (Eggermont, 1990; Churchland e Semowski, 1992). Em 
um cérebro adulto, a plasticidade pode ser atribuída a dois mecanismos: a criação de novas cone- 
x0es sinápticas entre neurônios e a modificação das sinapses existentes. Os axónios, as linhas de 
transmissão, e os dendritos, as zonas receptivas, constituem dois tipos de filamentos celulares que 
são distinguíveis por razões morfológicas; um axônio tem uma superficie mais lisa, menos ramifi- 
cações e maior comprimento, enquanto que um dendrito (assim chamado pela sua semelhança com 
uma árvore) tem uma superficie irregular e mais ramificações (Freeman, 1975). Os neurônios apa- 
recem em uma grande variedade de formas e tamanhos em diferentes partes do cérebro. À Figura 
1.2 ilustra a forma de uma célula piramidal, que ё um dos tipos mais comuns de neurônios corticais. 
Como muitos outros tipos de neurônios, ela recebe a maioria de suas entradas através de espinhas 
dendritais: veja o segmento de dendrito na inserção da Fig. 1.2 para detalhes. A célula piramidal 
pode receber 10.000 ou mais contatos sinápticos e pode se projetar sobre milhares de cêlulas-alvo. 

A maioria dos neurônios codifica suas saidas como uma série de pulsos breves de tensão. 
Estes pulsos, usualmente conhecidos como potenciais de ação ou impulsos (spikes), originam-se no 
corpo celular de neurônios, ou perto dele, e então se propagam através dos neurônios individuais a 
velocidade e amplitude constantes. As razões para o uso de potenciais de ação para a comunicação 
entre neurônios se baseiam na fisica dos axónios. O axónio de um neurônio € muito longo e fino e é 
caracterizado por uma alta resistência elétrica e uma capacitância muito grande. Estes dois elemen- 
tos estão distribuidos ao longo do axónio. O axônio pode assim ser modelado como uma linha de 
transmissão RC, dai o uso comum da “equação de linha” come a terminologia para descrever a 
propagação do sinal ao longo de um axônio. À análise deste mecanismo de propagação revela que, 
quando uma tensão é aplicada a uma extremidade do axónio, ela decai exponencialmente com a 
distância, caindo a um nivel insignificante no momento em que ela atinge a outra extremidade. Os 
potenciais de ação fornecem uma maneira de evitar este problema de transmissão (Anderson, 1995). 

No cérebro hà organizações anatômicas tanto em pequena escala como em grande escala, e 
funções diferentes ocorrem nos níveis mais baixos e nos mais altos. À Figura 1.3 mostra uma hierar- 
quia de níveis entrelaçados de organização, emergente do extenso trabalho sobre a análise de 
regiões localizadas no cérebro (Shepherd e Koch, 1990; Churchland e Sejnowski, 1992). As sinapses 
representam o nível mais fundamental, dependente de moléculas e ions para sua ação. Nos niveis 
seguintes, temos os microcircuitos neurais, as árvores dendritais e então os neurônios. Um 
microcircuito neural se refere à um agrupamento de sinapses organizadas em padrões de conectividade 
para produzir uma operação funcional de interesse. Um microcircuito neural pode ser comparado a 
um circuito de silício constituído por um agrupamento de transistores. O menor tamanho dos 
microcircuitos é medido em micrómetros (km), e a sua velocidade de operação mais rápida é medi- 
da em milissegundos. Os microcircuitos neurais são agrupados para formar subunidades dendritais 
dentro das arvores dendritais dos neurônios individuais. O neurônio completo, com tamanho de 
cerca de 100 um, contém várias subunidades dendritais. No nivel seguinte de complexidade nós 
temos circuitos locais (cerca de | mm de tamanho) constituídos por neurônios com propriedades 
similares ou diferentes; estes agrupamentos neurais realizam operações caracteristicas de uma re- 
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FIGURA 1.2 А célula piramidal 


giáo localizada no cérebro. Eles são seguidos por circuitos inter-regionals constituidos por camı- 
nhos, colunas e mapas topográficos, que envolvem regiões múltiplas localizadas em partes diteren- 
tes do cérebro. 

Os mapas topográficos são organizados para responder à informação sensorial incidente. Es- 
tes mapas são frequentemente arranjados em folhas, como no coliculo superior, onde os mapas 
visual, auditivo e somestésico estão empilhados em camadas adjacentes de tal modo que estímulos 
advindos de pontos correspondentes no espaço se localizem acima ou abaixo de cada um deles. A 
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Figura 1.4 apresenta um mapa citoarquitetural do córtex cerebral como apurado por Brodmann 
(Brodal, 1981). 





FIGURA 1.4 Mapa citoarquitectural do córtex cerebral. As diferentes áreas são identificadas pela 
espessura de suas camadas е tipos de células nelas contidas. Algumas das áreas especificas 
mais importantes são como segue. Córtex motor; banda motora, área 4; área pré-motora, área 6; 
campos oculares frontais, área 8. Córiex somestésico: áreas 3, 1, 2. Córtex visual: áreas 17, 18, 
19. Córtex auditivo: áreas 41 e 42. (De A. Brodal, 1981; com permissão da Oxford University Press.) 
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Esta figura mostra claramente que diferentes entradas sensoriais (motora, somestésica, visual, audi- 
tiva, etc.) são mapeadas sobre áreas correspondentes do córtex cerebral de uma forma ordenada. No 
nivel final de complexidade, os mapas topográficos e outros circuitos inter-regionais medeiam tipos 
especificos de comportamento no sistema nervoso central. 

É importante reconhecer que os niveis estruturais de organização descritos aqui são uma ca- 
racteristica única do cérebro. Eles não são encontrados em lugar algum em um computador digital, 
e não estamos próximos de recriá-los com redes neurais artificiais. Apesar disso, estamos avancan- 
do gradualmente no caminho de uma hierarquia de níveis computacionais similar áquela descrita na 
Fig. 1.3. Os neurônios artificiais que utilizamos para construir nossas redes neurais são realmente 
primitivos em comparação com aqueles encontrados no cérebro, As redes neurais que atualmente 
podemos projetar são comparativamente tão primitivas quanto os circuitos locais e inter-regionais 
do cérebro. O que é realmente gratificante, contudo, é o progresso notável alcançado em várias 
frentes durante as últimas duas décadas. Com a analogia neurobiológica como fonte de inspiração € 
com a riqueza das ferramentas teóricas e tecnológicas que temos acumulado, estamos certos de que 
em mais uma década nossa compreensão das redes neurais artificiais será muito mais sofisticada do 
que ela o é atualmente. 

Nosso interesse primordial neste livro está limitado ao estudo das redes neurais artificiais de 
uma perspectiva de engenharia.” Começamos o estudo descrevendo os modelos de neurônios (arti- 
ficiais) que formam a base das redes neurais consideradas nos capítulos subsequentes do livro. 


1.3 MODELOS DE UM NEURÔNIO 


Um neurônio é uma unidade de processamento de informação que é fundamental para a operação 
de uma rede neural, O diagrama em blocos da Fig. 1.5 mostra o modelo de um neurônio, que forma 
a base para o projeto de redes neurais (artificiais). Aqui nós identificamos três elementos básicos do 
modelo neuronal: 
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1. Um conjunto de sinapses ou elos de conexão, cada uma caracterizada por um peso ou força 
própria. Especificamente, um sinal x na entrada da sinapse j conectada ao neurônio É é multipli- 
cado pelo peso sináptico we, E importante notar a maneira como são escritos os indices do peso 
sináptico w,. O primeiro indice se refere ao neurônio em questão e o segundo se refere ao 
terminal de entrada da sinapse à qual o peso se refere, Ao contrário de uma sinapse do cérebro, 
o peso sináptico de um neurônio artificial pode estar em um intervalo que inclui valores negati- 
vos bem como positivos, 
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2. Um somador para somar os sinais de entrada, ponderados pelas respectivas sinapses do neurônio; 
as operações descritas aqui constituem um combinador linear. 

3. Uma junção de ativação para restringir a amplitude da saida de um neurónio. A função de 
ativação é também referida como Junção restritiva já que restringe (limita) o intervalo permis- 
sivel de amplitude do sinal de saída a um valor finito. 

Tipicamente, o intervalo normalizado da amplitude da saida de um neurônio é escrito como o 
intervalo unitário fechado [0, 1] ou alternativamente [-1, 1]. 


O modelo neuronal da Fig. 1.5 inclui também um bias aplicado externamente, representado por 5. 
O bias 5, tem o efeito de aumentar ou diminuir a entrada liquida da função de ativação, dependendo 
se ele É positivo ou negativo, respectivamente. 

Em termos matemáticos, podemos descrever um neurônio & escrevendo o seguinte par de 
equações: 


H = > WX, (1.1) 
jul 


y, = oiu, + 6) (1.2) 
onde x, XX, 580 os sinais de entrada; w, Was ee %,, SÃO os pesos sinápticos do neurônio A; u, 
é a saida do combinador linear devido aos sinais de entrada; b, ёо bias; 9 (-) é a função de ativação; 
e y, Со sinal de saida do neurônio. О uso do bias b, tem o efeito de aplicar uma transformação afim 
à saida и, do combinador linear no modelo da Fig. 1.5, como mostrado por 


nut b, (1.3) 


Em particular, dependendo se o bias b, é positivo ou negativo, a relação entre o campo local induzi- 
do ou potencial de ativação v, do neurônio k e a saida do combinador linear n, é modificada na 
forma ilustrada na Fig. 1.6; de agora em diante, o termo "campo local induzido" será usado. Note 
que como resultado desta transformação afim, o gráfico de v, em função de и, não passa mais pela 
origem. 
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FIGURA 1.6 Transformação afim produzida 
pela presença de um bias, note que v, = b em 


ц = 0. 


38 Reoes Neurais 


O bias b, é um parâmetro externo do neurônio artificial £. Podemos considerar a sua presença 


como na Eq. (1.2). Equivalentemente, podemos formular a combinação das Eqs. (1.1) até (1.3) 
como SCEUC. 


9, = Ух, (1.4) 


y,7 oiu) (1.5) 
Na Eq. (1.4), adicionamos uma nova sinapse. À sua entrada ё 
ж] (1.6) 
e o seu peso é 
w = А (1.7) 
Podemos, portanto, reformular o modelo do neurônio k como na Fig. 1.7. Nesta figura, o efeito do 
bias é levado em conta de duas maneiras: (1) adicionando-se um novo sinal de entrada fixo em +1 e 


(2) adicionando-se um novo peso sináptico igual ао bias b. Embora os modelos das Figs. 1.5 е 1.7 
sejam diferentes na aparência, eles são matematicamente equivalentes. 


уе" = by haa) 
Entrada fixa 2, = % fam, | 
Função de 
ativação 
Sinai de | а 
*aida 
entrada < | a 
! E) n 
Junção 
aditiva 
scu 
Pesos 
sinápticos FIGURA 1.7 Um outro modalo 
tinctuindo o nac-linear de um neurônio 


Tipos de Função de Ativação 


A função de ativação, representada por q (1), define a saida de um neurônio em termos do campo 
local induzido +. Aqui nós identificamos trés tipos básicos de funções de ativação: 


1. Função de Limiar. Para este tipo de função de ativação, descrito na Fig. 1.82, temos 


| serve 


1} = 
eu O ser<oO (1.8) 
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FIGURA 1.8 (а) Função de miar. 
(b) Função linear por partes. (c) 

E Função sigmóida para parámetro 
de inclinação a variável 


Na literatura de engenharia, esta forma de função de limiar é normalmente referida como função de 
Heaviside. Correspondentemente, a saida do neurônio k que emprega esta função de limiar é ex- 
pressa como 


1 sev, 20 
„= 1.9 
А |: se v, <0 (1.5) 
onde v, é o campo local induzido do neurônio; isto é 
D, = Y wx +b, (1.10) 
jul 


Tal neurônio é referido na literatura como o modelo de McCulloch-Pitts, em reconhecimento ao 
trabalho pioneiro realizado por McCulloch e Pitts (1943). Neste modelo, a saida de um neurômo 
assume o valor 1, se o campo local induzido daquele neurônio é não-negativo, e 0 caso contrário. 
Esta definição descreve a propriedade tudo-ou-nada do modelo de McCulloch-Pitts. 
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2. Função Linear por Partes. Para a função linear por partes descrita na Fig.1.8b temos 


l, 02+ 
И NER aan 


onde assume-se que o fator de amplificação dentro da região linear de operação é a unidade, Esta 
forma de função de ativação pode ser vista como uma aproximação de um amplificador não-linear. 
As duas situações seguintes podem ser vistas como formas especiais da função linear por partes: 


+ Se a região linear de operação é mantida sem entrar em saturação, surge um combinador 
linear. 

e A função linear por partes se reduz à função de limiar, se o fator de amplificação da região 
linear é feito infinitamente grande. 


3. Função Sigmoide. À função sigmóide, cujo gráfico tem a forma de s, é de longe a forma mais 
comum de função de ativação utilizada na construção de redes neurais artificiais. Ela é definida 
como uma função estritamente crescente que exibe um balanceamento adequado entre comporta- 
mento linear e não-linear” Um exemplo de função sigmóide é a função logistica," definida por 


Pe] = Te SIC (1.12) 
onde a é o parámetro de inclinação da função sigmóide. Variando-se o parâmetro a, obtemos fun- 
ções sigmóides com diferentes inclinações, como ilustrado na Fig. 1.8c. Na verdade, a inclinação na 
origem é igual a 2/4. No limite, quando o parâmetro de inclinação se aproxima do infinito, a função 
sigmóide se torna simplesmente uma função de limiar, Enquanto que a função de limiar assume o 
valor de O ou 1, uma função sigmóide assume um intervalo continuo de valores entre 0 е 1. Note 
também que a função sigmóide é diferenciável, enquanto que a função de limiar não о €. 
(Diferenciabilidade ё uma caracteristica importante da teoria de redes neurais, como desento no 
Capítulo 4.) 


As funções de ativação definidas nas Eqs. (1.8), (1.11) e (1.12) se estendem de O a +1. Algu- 
mas vezes é desejável que a função de ativação se estenda de —1 a +1, assumindo neste caso uma 
forma anti-simétrica em relação à origem, isto é, a função de ativação é uma função impar do campo 
local induzido. Especificamente, a função de limiar da Eq. (1.8) é definida agora como 

| 1 sev>0 
ф(в)={ 0 sev=0 (1.13) 
1 sev«ü 
a qual é normalmente denominada função sinal, Para a forma correspondente de uma função sigmóide, 
podemos utilizar a função tangente hiperbólica, definida por 


p (1) = tanh (4) (1,14) 


O fato de se permitir que uma fungáo de ativagáo do tipo sigmóide assuma valores negativos como 
descrito pela Eq. (1,14) traz beneficios analíticos (como mostrado no Capitulo 4), 


INrRODuCcAO 4 


Modelo Estocástico de um Neurónio 


O modelo neuronal descrito na Fig. 1.7 é deterministico já que o seu comportamento de entrada- 
saida é definido precisamente para todas as entradas. Para algumas aplicações de redes neurais, é 
desejável que a análise seja bascada em um modelo neuronal estocástico. Em uma abordagem ana- 
liticamente tratável, é dada uma interpretação probabilística à função de ativação do modelo de 
MeCulloch-Pitts. Mais especificamente, permite-se que um neurônio assuma apenas um de dois 
estados: +1 ou —1, por exemplo. A decisão para disparar um neurônio (i.e., mudar seu estado de 
“desligado” para “ligado”) é probabilística. Considere que x represente o estado do neurônio e Pro) 
represente a probabilidade de disparar, onde v é o campo local induzido do neurônio. Nós podemos 
então escrever 


_ [+1 com probabilidade P(v) 
*= 1-1 com probabilidade 1- P(v) 


Uma escolha padrão para P(v) é a função de forma sigmóide (Little, 1974): 


| 

Рв) = 1+ехр(-®/ Т) (1.15) 
onde T é uma pseudotemperatura que é utilizada para controlar o nivel de ruído e portanto a incer- 
teza de disparar. É importante perceber, entretanto, que T não é a temperatura fisica de uma rede 
neural, seja ela uma rede neural biológica ou artificial. Em vez disso, como jà mencionado, nås 
devemos considerar T meramente como um parâmetro que controla as flutuações térmicas que 
representam os efeitos do ruído sináptico. Note que quando 7 — 0, o neurônio estocástico descrito 
pela Eq. (1.15) se reduz a uma forma sem ruido (i.e., determinística), que é o modelo de McCulloch- 
Pitts. 


1.4 REDES NEURAIS VISTAS COMO GRAFOS ORIENTADOS 


O diagrama em blocos da Fig. 1.5 ou aquele da Fig. 1.7 fomece uma descrição funcional dos vários 
elementos que constituem o modelo de um neurônio artificial. Nós podemos simplificar a aparência 
do modelo utilizando a idéia de grafos de fluxo de sinal sem sacrificar quaisquer detalhes do mode- 
lo. Os grafos de fluxo de sinal juntamente com um conjunto bem-definido de regras foram desen- 
volvidos originalmente por Mason (1953, 1956) para redes lineares. À presença de nào-linearidade 
no modelo de um neurônio limita o escopo de sua aplicação às redes neurais. Apesar disso, os 
grafos de fluxo de sinal fornecem um método elegante para retratar o fluxo dos sinais em uma rede 
neural, que é o nosso objetivo nesta seção. 

Um grafo de fluxo de sina! é uma rede de elos (ramos) orientados que são interligados em 
certos pontos chamados nós. Um nó típico j tem um sinal nodal x, associado. Um elo orientado 
tipico origina-se no nó j e termina no nó &; ele tem uma função de transferencia ou transmitância 
associada que especifica a maneira pela qual o sinal y, no nó k depende do sinal x, no nó j. O fluxo 
de sinais nas diversas partes do grafo é ditado por três regras básicas: 


Regra 1. Um sinal flui ao longo de um elo somente no sentido definido pela seta do elo. 


Dois diferentes tipos de elos podem ser distinguidos: 
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«+ Elos sinápticos, cujo comportamento é governado por uma relação de entrada-saida linear. 
Especificamente, o sinal nodal x, é multiplicado pelo peso sináptico +,, para produzir o sinal 
nodal v, como ilustrado na Fig. 1.9. 


(el 


FIGURA 1.9 Пегаса das regras básicas Ы 
para а construção de gratos de fluxo de sinal (di 


e Elos de ativação, cujo comportamento é governado em geral por uma relação de entrada-saida 
nda-linear. Esta forma de relação é ilustrada na Fig. 1.9b, onde p(-) é a função de ativação 
nüo-linear. 


Regra 2. Um sinal nodal é igual à soma algébrica de todos os sinais que entram no nó pertinente 
via os elos incidentes. 


Esta segunda regra é ilustrada na Fig. 1.9c para o caso de convergencia sinaptica ou fan-in. 


Regra 3. O sinal em um nó é transmitido para cada elo de saida originário deste nó, sendo à trans- 
missão inteiramente independente das funções de transferência dos elos de saída. 


Esta terceira regra é ilustrada na Fig. 1.90 para o caso de divergência sináptica ou fan-out. 

Utilizando estas regras podemos construir, por exemplo, o grafo de fluxo de sinal da Fig. 1.10 
como o modelo de um neurônio, correspondente ao diagrama em blocos da Fig. 1.7. A representa- 
ção mostrada na Fig. 1.10 é claramente mais simples em aparência que aquela da Fig. 1.7, apesar de 
conter todos os detalhes funcionais descritos naquele diagrama. Note que em ambas as figuras a 
entrada x, = +1 e o peso sináptico associado w = b, onde b, é o bias aplicado ao neurônio &. 


De fato, com base no grafo de fluxo de sinal da Fig, 1.10 como o modelo de um neurônio, 
podemos agora oferecer a seguinte definição matemática de uma rede neural: 
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FIGURA 1.10 Gralo de fluxo 
de sinal de um neurônio 





Uma rede neural é um grafo orientado constituido de nós com elos de interligação sinápticos e de 
ativação e é caracterizada por quatro propriedades: 


1. Cada neurônio é representado por um conjunto de elos sinapticos lineares, um bias aplicado 
externamente e um elo de ativação possivelmente não-linear. O bias é representado por um elo 
sindptico conectado a uma entrada fixa em +1. 

2. Os elos singpticos de um neurônio ponderam os seus respectivos sinais de entrada. 

3. À soma ponderada dos sinais de entrada define o campo local induzido do neurônio em ques- 
tão. 

4. O elo de ativação limita o campo local induzido do neurônio para produzir uma saída. 


O estado do neurônio pode ser definido em termos do seu campo local induzido ou de seu sinal de 
saida. 

Um grato orientado assim definido é completo no sentido de ele descrever não somente o 
fluxo de sinal de neurônio para neurônio, mas também o fluxo de sinal dentro de cada neurônio. 
Entretanto, quando o foco de atenção é restrito ao fluxo de sinal de neurônio para neurônio, pode- 
mos utilizar uma forma reduzida deste grafo, omitindo os detalhes do fluxo de sinal no interior dos 
neurônios individuais. Este grafo orientado é chamado de parcialmente completo. Ele é caracteriza- 
do como segue: 


1. №5 de fonte fornecem sinais de entrada para o grafo. 

2. Cada neurônio é representado por um único nó chamado de по computacional. 

3. Os elos de comunicação que conectam os nós de fonte aos nós computacionais do grafo não 
carregam pesos; eles meramente fornecem direções de fluxo de sinal no grafo. 


Um grafo orientado parcialmente completo definido dessa forma é referido como um grafo 
arquitetural, que descreve a planta da rede neural. Ele é ilustrado na Fig. 1.11 para o caso simples 
de um único neurônio com лт nós de fonte e um único nó fixo em +1 para o bias. Note que o nó 
computacional que representa o neurônio está mostrado sombreado e o nó de fonte é mostrado 
como um pequeno quadrado, Esta convenção é seguida em todo o livro. Exemplos mais elaborados 
de plantas arquiteturais são apresentados na Seção 1.6. 

Para resumir, temos três representações gráficas de uma rede neural: 


+ Diagrama em blocos, que fornece uma descrição funcional da rede. 
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FIGURA 1.11 Grafo arquitetural de 
um naurdnio х 


+ Grafo de fluxo de sinal, que fornece uma descrição completa do fluxo de sinal na rede. 
* Grafo arquitetural, que descreve a planta da rede. 


1.5 REALIMENTACAO 


Dizemos que existe realimentegdo em um sistema dinâmico sempre que a saída de um elemento do 
sistema influencia em parte a entrada aplicada aquele elemento particular, originando assim um ou 
mais de um caminho fechado para transmissão de sinais em torno do sistema, Na verdade, a reali- 
mentação ocorre em quase todas as partes do sistema nervoso de todos os animais (Freeman, 1975). 
Além disso, ela desempenha um papel importante no estudo de uma classe especial de redes neurais 
conhecidas como redes recorrentes. À Figura 1.12 mostra o grafo de fluxo de sinal de um sistema 
realimentado de laço unico, onde o sinal de entrada xin ho sinal interno x (n)eosinal de saida v,(11) 
são funções da variável de tempo discreto n. Assume-se que o sistema seja linear, consistindo de um 
caminho direto e de um caminho de realimentação que são caracterizados pelos "operadores" 4 e B, 


mink A 
J 
xin ] УЙ п) 
FIGURA 1.12 Gralo de fluxo de sinal de 
um sistema realimentado com laço único 
А 


respectivamente, Em particular, a saida do canal direto determina em parte sua própria saida através 
do canal de realimentação. Da Fig. 1.12 notamos facilmente as seguintes relações de entrada-saida: 


y, Gr) = A [x,()] (1.16) 
x (n) = x (1) + H KAG (1.17) 


onde os colchetes são incluidos para enfatizar o fato de À e В agirem como operadores. Eliminando 
x (n) entre as eqs. (1.16) e (1.17), obtemos 


y, n) : 


l- AB 





[x, cal (1.18) 


Referimo-nos a AA] - AB) como o operador de laco fechado do sistema, e a AB como o operador 
de lago aberto. Em geral, o operador de laço aberto não é comutativo no sentido de que BA = AB. 

Considere, por exemplo, o sistema realimentado de laço único mostrado na Fig. 1.13, no qual 
А é um peso fixo, w; e B é um operador de atraso unitario, 27, cuja saída está atrasada em relação 
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БИО FIGURA 1.13 Gralo de fluxo de sinal de 
zjn) Ун urn filtra de resposta a impulso de duração 
infinita (HA, infinite-duratian impulse 
zul response), de primeira ordem 


à entrada em uma unidade de tempo, Podemos então expressar o operador de laço fechado do 
sistema como 





= w(1-wz")y' 


Utilizando a expansão binomial para (1 — w z Y ', podemos rescrever o operador de laço fechado do 
sistema como 





4 Е | 
= ) wz” (1.19) 
l- AB = 


Assim, substituindo a Eg. (1.19) em (1.18), obtemos 


Y {н} = wY wz ; [x, (m)]| (1 20) 
onde novamente incluimos os colchetes para enfatizar o fato de 27! ser um operador. Em particular, 
da definição de т ' temos 


27 [x(n)] 7 x (n - D) (1.21) 


onde x (n — |) é uma amostra do sinal de entrada atrasada de / unidades de tempo. Conseqüentemen- 
te, podemos expressar о sinal de saída v (1) como uma soma ponderada infinita das amostras pre- 
sentes e passadas do sinal de entrada x (1), como mostrado por 


y (n) V wx, (т (1.22) 


Vemos claramente agora que o comportamento dinâmico do sistema é controlado pelo peso w. Em 
particular, podemos distinguir dois casos especificos: 


1. jele I, para o qual o sinal de saida v (1) é exponencialmente convergente; isto é, o sistema é 
extável. Isto é ilustrado na Fig. 1.14a para um we positivo. 

2. he] = 1, para o qual о sinal de saida v (1) € divergente; 150 €, o sistema € instavel. Se || = 1 a 
divergência é linear como na Fig. 1.14b, ese lo] > I a divergência é exponencial como na Fig. 
1.14c. 


A estabilidade tem papel de destaque no estudo de sistemas realimentados. 

O caso de [20| = | corresponde a um sistema com memoria infinita no sentido de a saída do 
sistema depender das amostras da entrada que se estendem sobre o passado infinito. Além disso, a 
memória é esvaecente já que a influéncia de uma amostra passada se reduz exponencialmente com 
o tempo a. 

A análise do comportamento dinâmico das redes neurais envolvendo a aplicação de realimen- 
tação infelizmente € complicada pelo fato de as unidades de processamento utilizadas para cons- 
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FIGURA 1.14 Resposta temporal 
da Fig. 1.13 para très valores dife- 
rentes de pesos w em um caminho 
para rente, (a) Estável, (b) Diver- 
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gência linear. (c) Drvergäncia 
exponential 


del 
truir a rede serem geralmente não-lineares. Outras considerações adicionais sobre este assunto 
serão tratadas mais adiante neste livro. 


16 ARQUITETURAS DE REDE 


A maneira pela qual os neurônios de uma rede neural estão estruturados está intimamente ligada 
com o algoritmo de aprendizagem usado para treinar a rede. Podemos, portanto, falar de algoritmos 
(regras) de aprendizagem utilizados no projeto de redes neurais como sendo estruturados. A classi- 
ficação de algoritmos de aprendizagem é considerada no próximo capitulo, e o desenvolvimento de 
diferentes algoritmos de aprendizagem é tratado nos capítulos subsequentes do livro, Nesta seção, 
focalizamos nossa atenção nas arquiteturas (estruturas) de rede. Em geral, podemos identificar três 
classes de arquiteturas de rede fundamentalmente diferentes: 


1. Redes Alimentadas Adiante com Camada Única 


Em uma rede neural em camadas, os neurônios estão organizados na forma de camadas. Na forma 
mais simples de uma rede em camadas, temos uma camada de entrada de nós de fonte que se 
projeta sobre uma camada de saida de neurônios (nós computacionais), mas não vice-versa. Em 
outras palavras, esta rede é estritamente do tipo alimentada adiante ou aciclica. Ela é ilustrada na 
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Fig. 1.15 para o caso de quatro nós tanto na camada de entrada como na de saida. Esta rede é 
chamada de rede de camada única, sendo que a designação “camada única” se refere à camada de 
saida de nós computacionais (neurônios). Não contamos a camada de entrada de nós de fonte, 
porque lá não é realizada qualquer computação. 





FIGURA 1.15 Rede alimentada 
Camada de entrada de Camada de sabla adiante ou aciclica com uma 
neurônios de fonte de neurônios única camada de neurônios 


2. Redes Alimentadas Diretamente com Múltiplas Camadas 


A segunda classe de uma rede neural alimentada adiante se distingue pela presença de uma ou mais 
camadas ocultas, cujos nós computacionais são chamados correspondentemente de neurônios ocultos 
ou unidades ocultas. À função dos neurônios ocultos é intervir entre a entrada externa e a saída da 
rede de uma maneira útil, Adicionando-se uma ou mais camadas ocultas, tornamos a rede capaz de 
extrair estatísticas de ordem elevada. Em um sentido bastante livre, а rede adquire uma perspectiva 
global apesar de sua conectividade local, devido ao conjunto extra de conexões sinápticas e da 
dimensão extra de interações neurais (Churchland e Sejnowski, 1992). A habilidade de os neurônios 
ocultos extrairem estatísticas de ordem elevada é particularmente valiosa quando o tamanho da 
camada de entrada é grande. 

Os nós de fonte da camada de entrada da rede fornecem os respectivos elementos do padrão de 
ativação (vetor de entrada), que constituem os sinais de entrada aplicados aos neurônios (nós 
computacionais) na segunda camada (1.e., a primeira camada oculta), Os sinais de saida da segunda 
camada são utilizados como entradas para a terceira camada, e assim por diante para o resto da rede. 
Tipicamente, os neurônios em cada camada da rede têm como suas entradas apenas os sinais de 
saida da camada precedente. O conjunto de sinais de saida dos neurônios da camada de saida (final) 
da rede constitui a resposta global da rede para o padrão de ativação fornecido pelos nós de fonte da 
camada de entrada (primeira). O grafo arquitetura! na Fig. 1.16 ilustra a planta de uma rede neural 
de múltiplas camadas alimentada adiante para o caso de uma única camada oculta. Por concisão, à 
rede na Fig. 1.16 é referida como uma rede 10-4-2 porque ela tem 10 neurónios de fonte, 4 neurônios 
ocultos e 2 neurônios de saida. Como um outro exemplo, uma rede alimentada adiante com m nós 
de fonte, /, neurônios na primeira camada oculta, 4, neurônios na segunda camada oculta e q neurônios 
па camada de saida é referida como uma rede m-h -M p. 

A rede neural da Fig. 1.16 é dita totalmente conectada, no sentido de que cada um dos nós de 
uma camada da rede está conectado a todos os nós da camada adjacente seguinte. Entretanto, se 
alguns dos elos de comunicação (conexões sinápticas) estiverem faltando na rede, dizemos que a 
rede é parcialmente conectado. 
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FIGURA 1.16 Rede alimentada 


adianta ou асісіса totalmente Camada de Camada de Camada de 
conectada com uma camada oculta entrada de neurônios neurônios 
a uma camada de saida nos de fonte ocultos de salda 


3. Redes Recorrentes 


Uma rede neural recorrente se distingue de uma rede neural alimentada adiante por ter pelo menos 
um laço de realimentação. Uma rede recorrente pode consistir, por exemplo, de uma única camada 
de neurônios com cada neurônio alimentando seu sinal de saida de volta para as entradas de todos 
os outros neurônios, como ilustrado no grafo arquitetural da Fig. 1.17. Na estrutura representada 
nesta figura, não há laços de auto-realimentação na rede, auto-realimentação se refere a uma situa- 
cão onde a saida de um neurônio é realimentada para a sua própria entrada, A rede recorrente 





= Operadores de 
| atraso unitário 


FIGURA 1.17 Flade recorrente sem 
laços de auto-realimentação е sem 
neurônios ocultas 
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ilustrada па Fig. 1.17 também não tem neurônios ocultos, Na Fig. 1.18, ilustramos uma outra classe 
de redes recorrentes com neurônios ocultos. Às conexões de realimentação mostradas na Fig. 1.18 
se originam dos neurônios ocultos bem como dos neurônios de saida. 

A presença de laços de realimentação, quer seja na estrutura recorrente da Fig. 1.17 ou naque- 
la da Fig. 1.18, tem um impacto profundo na capacidade de aprendizagem da rede e no seu desem- 
penho, Além disso, os laços de realimentação envolvem o uso de ramos particulares compostos de 
elementos de atraso unitário (representados por 27), o que resulta em um comportamento dinámico 
não-linear, admitindo-se que a rede neural contenha unidades não-lineares. 


Salidas 





Operadores de 
atraso unitário 


Entradas 


FIGURA 1.18 Rede recorrante com neurónios ocultas 


1.7 REPRESENTAÇÃO DO CONHECIMENTO 


Na Seção 1.1, utilizamos o termo “conhecimento” na definição de uma rede neural, sem uma des- 
crição explicita do que isso significa para nós. Agora nos ocuparemos desse assunto oferecendo a 
seguinte definição genérica (Fischler e Firschein, 1987): 


Conhecimento se refere d informação armazenado ou a modelos utilizados por uma pessoa ow 
máquina para interpretar, prever e responder apropriadamente ao mundo exterior 


São duas as principais características da representação do conhecimento: (1) que informação é 
realmente tornada explicita; e (2) como a informação é codificada fisicamente para o uso subse- 
quente. Portanto, pela sua própria natureza, a representação do conhecimento é direcionada a um 
objetivo. Em aplicações do mundo real de máquinas “inteligentes”, podemos dizer que uma boa 
solução depende de uma boa representação do conhecimento (Woods, 1986). Assim também o é 
com as redes neurais que representam uma classe especial de máquinas inteligentes. Tipicamente, 
entretanto, as formas possiveis de representação desde as entradas até os parâmetros internos da 
rede são muito diversificadas, o que tende a tornar o desenvolvimento de uma solução satisfatória 
utilizando uma rede neural um desafio real de projeto, 

Uma tarefa importante para uma rede neural é aprender um modelo do mundo (ambiente) no 
qual ela está inserida e manter o modelo suficientemente consistente com o mundo real de maneira 
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a atingir ов objetivos especificados da aplicação de interesse, O conhecimento do mundo consiste 
de dois tipos de informação: 


1. O estado conhecido do mundo, representado pelos fatos sobre o que é e o que era conhecido; 
esta forma de conhecimento é chamada de informação prévia. 

2. As observações (medidas) do mundo, obtidas por meio de sensores projetados para sondar o 
ambiente no qual a rede neural deve operar. Normalmente, estas observações são inerentemente 
ruidosas, sendo sujeitas a erros devido a ruido do sensor e imperfeições do sistema. De qualquer 
maneira, as observações que são assim obtidas fornecem o conjunto de informações de onde 
são retirados os exemplos utilizados para treinar a rede neural. 


Os exemplos podem ser rotulados ou não-rotulados. Nos exemplos rotulados, cada exemplo que 
representa um sinal de entrada é associado a uma resposta desejada correspondente (L.e., saida- 
alvo). Por outro lado, os exemplos não-rotulados consistem de ocorrências diferentes dos próprios 
sinais de entrada. De qualquer maneira, um conjunto de exemplos, rotulados ou não, representa o 
conhecimento acerca do ambiente de interesse que uma rede neural pode aprender através de treina- 
mento. 

Um conjunto de pares de entrada-saida, com cada par consistindo de um sinal de entrada e a 
resposta desejada correspondente, é referido como um conjunto de dados de treinamento ou amos- 
tra de treinamento. Para ilustrar como este conjunto de dados pode ser utilizado, considere, por 
exemplo, o problema do reconhecimento de um digito manuscrito. Neste problema, o sinal de entra- 
da consiste de uma imagem com pixels (elementos da imagem) pretos ou brancos, com cada ima- 
gem representando um dos 10 digitos que estão bem separados do fundo. A resposta desejada é 
definida pela “identidade” do digito particular cuja imagem é apresentada para a rede como o sinal 
de entrada. Tipicamente, a amostra de treinamento consiste de uma grande variedade de digitos 
manuscritos que são representativos de uma situação do mundo real, Dado este conjunto de exem- 
plos, o projeto de uma rede neural pode prosseguir como segue: 


+ Primeiro, uma arquitetura apropriada é selecionada para a rede neural, com uma camada de 
entrada consistindo de nós de fonte iguais em número aos pixels de uma imagem de entrada, e 
uma camada de saida consistindo de 10 neurônios (um para cada digito). Um subconjunto de 
exemplos é então utilizado para treinar a rede por meio de um algoritmo apropriado. Esta fase 
do projeto da rede é chamada de aprendizagem. 

* Segundo, o desempenho de reconhecimento da rede treinada é testado com dados não apre- 
sentados anteriormente. Especificamente, uma imagem de entrada é apresentada para a rede, 
mas desta vez não lhe é fornecida a identidade do digito que corresponde a esta imagem 
particular. O desempenho da rede é então estimado comparando-se o reconhecimento do digi- 
to fornecido pela rede com a real identidade do digito em questão, Esta segunda fase da opera- 
ção da rede é chamada generalização, um termo emprestado da psicologia. 


Aqui se encontra uma diferença fundamental entre o projeto de uma rede neural e o de sua 
contrapartida, o processamento de informação clássico (classificação de padrões). Neste último 
caso, normalmente procedemos primeiramente formulando um modelo matemático das observa- 
ções do ambiente, validando o modelo com dados reais, e então estruturando o projeto com base 
neste modelo. O projeto de uma rede neural, ao contrário, é baseado diretamente nos dados do 
mundo real, permitindo-se que o conjunto de dados fale por si mesmo. Assim, a rede neural não 
somente fornece o modelo implícito do ambiente no qual ela está inserida, como também realiza à 
função de processamento de informação de interesse. 
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Os exemplos utilizados para treinar uma rede neural podem consistir tanto de exemplos posi- 
tivos como de exemplos negativos. Em um problema de detecção passiva de sonar, por exemplo, os 
exemplos positivos são relativos aos dados de treinamento de entrada que contêm o alvo de interes- 
se (ex., um submarino). Agora, em um ambiente de sonar passivo, sabe-se que a presenca eventual 
de vida marinha nos dados de teste causa alarmes falsos ocasionais. Para atenuar este problema, 
exemplos negativos (p.ex., ecos da vida marinha) são incluidos nos dados de treinamento para 
ensinar a rede a nào confundir a vida marinha com o alvo. 

Em uma rede neural com uma arquitetura especifica, a representação do conhecimento do 
meio ambiente é definida pelos valores assumidos pelos parámetros livres (i.e., pesos sinápticos е 
bias) da rede. A forma dessa representação de conhecimento constitui o verdadeiro projeto da rede 
neural, e portanto ё a chave para o seu desempenho. 

Entretanto, o tema da representação do conhecimento no interior de uma rede artificial é mui- 
to complicado. Apesar disso, existem quatro regras para a representação do conhecimento que são 
de senso comum (Anderson, 1988). 


Regra 1. Entradas similares de classes similares normalmente devem produzir representações sl- 
milares no interior da rede, e portanto devem ser classificadas como pertencentes à mesma catego- 
ria. 


Há uma profusão de medidas para determinar a “similaridade” entre entradas. Uma medida de 


similaridade usada frequentemente é baseada no conceito de distância euclidiana, Para sermos es- 
pecificos, considere que x, represente um vetor m-por-1 


= r 
x T EE Ж] 
cujos elementos são todos números reais, o indice superior T indica a transposição matricial. O 


vetor x, define um ponto em um espaço de dimensão m chamado espaço euclidiano e representado 
por Ё". A distância euclidiana entre um par de vetores m por 1, x e x, é definida por 


da, x)- | - x/| 


" Ua 


Ext 


(1.23) 


onde x, e x, são os &-ésimos elementos dos vetores de entrada x, e x, respectivamente, 
Correspondentemente, a similaridade entre as entradas representadas pelos velores x ex É definida 
como o reciproco da distância euclidiana dix, x). Quanto mais próximo entre si estiverem os ele- 
mentos individuais dos vetores de entrada x, e x, menor será a distância euclidiana d(x, х), e 
portanto maior será a similaridade entre os vetores x, € x. А regra 1 afirma que se os vetores x ex 
são similares, eles devem ser atribuidos à mesma categoria (classe). 

Uma outra medida de similaridade é baseada na idéia de um produto escalar ou produto inter- 
no que também é tomada emprestada da álgebra matricial. Dado um par de vetores x e x, de mesma 
dimensão, o seu produto interno é x, x + que na forma expandida é escrito como segue: 


(xp - Xj X, 


йт 
= Ў, хах, 


tmj 


(1.24) 
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O produto interno (x. x ) dividido por ||x || ||x || é o co-seno do ángulo subentendido entre os vetores 
хех. 

As duas medidas de similaridade definidas aqui estão na verdade intimamente relacionadas 
entre si, como ilustrado na Fig. 1.19. A distância euclidiana ||х — xl entre os vetores x, e X, está 
relacionada com a “projeção” do vetor x, sobre o vetor X. À Figura 1.19 mostra claramente que, 
quanto menor a distância euclidiana ||x, — x || e portanto quanto mais similares forem os vetores xc 
x, maior será o produto interno x "x . 


FIGURA 1.19 Ilustração da 
relação entre o produto 
interno e a distância 


euclidiana como medidas de SÁ +; 


aimilaridade entre padrões xx 





Para formalizarmos esta relacáo, primeiro normalizamos os vetores x, € X, para terem compri- 
mento unitário, ou seja, 


|х| = [ix l| = 1 


Podemos então utilizar a Eq. (1.23) para escrever 


d'(X,,X,) z (x, х) (x, - x,) 


-2-2xix, ie 
A Equação (1.25) mostra que a minimização da distância euclidiana dix, x) corresponde à 
maximização do produto interno (x. x ) e, portanto, da similaridade entre os vetores x ех. 

A distância euclidiana e o produto interno descritos aqui são definidos em termos 
deterministicos. O que acontece quando os vetores x e x são retirados de duas populações (fontes) 
de dados diferentes? Para sermos específicos, suponha que a diferença entre essas duas populações 
esteja somente nos seus vetores médios. Considere que p, € р, representem os valores médios dos 
vetores x, e x, respectivamente. [sta é, 


H, = E [x] (1.26) 


onde E é o operador estatístico esperado. O vetor médio р, é definido de forma similar. Como uma 
medida de distância entres essas duas populações, podemos utilizar a distancia de Mahalanohis, 
representada por d, O quadrado do valor dessa distância de x, para x, € definido por (Duda e Hart, 
1973): 


d; = (к, E" fx, — n) (1.27) 


onde E 'é a ınversa da matriz de covariância E. Assume-se que a matriz de covariáncia é a mesma 
para ambas as populações, como mostrado por 
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E- El(x, -4,Mx, -u,)”) 


: (1.28) 
= E[(x, - ux, - n, Y] 

Рага o caso especial quando x =x, =p = це E= I, onde I éa matriz identidade, a distância de 

Mahalanobis se reduz à distância euclidiana entre o vetor de amostra x, e o vetor de média JL. 


Regra 2. Devem ser atribuidas representacóes bem diferentes na rede a itens que devem ser 
categorizados como classes separadas. 


A segunda regra é exatamente o oposto da Regra 1. 


Regra 3. Se uma caracteristica particular é importante, então deve haver um grande número de 
neurônios envolvidos na representação daquele item na rede. 


Considere, por exemplo, uma aplicação de radar envolvendo a detecção de um alvo (p.ex., 
uma aeronave) na presença de perturbações (i.e., reflexões de radar por alvos indesejáveis como 
edificios, árvores e formações meteorológicas). O desempenho da detecção deste sistema de radar é 
medido em termos de duas probabilidades: 


«+ Probabilidade de detecção, definida como a probabilidade de o sistema decidir que o alvo está 
presente, quando ele realmente estã. 

* Probabilidade de alarme falso, definida como a probabilidade de o sistema decidir que um 
alvo está presente, quando na realidade ele não está. 


De acordo com o critério de Neyman-Fearson, a probabilidade de detecção é maximizada, sujeita à 
restrição de que a probabilidade de alarme falso não exceda um determinado valor (Van Trees, 
1968). Nesta aplicação, a presença real de um alvo no sinal recebido representa uma caracteristica 
importante da entrada. Na verdade, a Regra 3 afirma que deve haver um grande número de neurônios 
envolvidos na tomada de decisão se um alvo está presente, quando ele realmente estiver. Pelo mes- 
mo motivo, deve haver um número muito grande de neurônios envolvidos na tomada de decisão se 
a entrada consiste apenas de perturbações, quando realmente este for o caso. Em ambas as situações 
o grande número de neurônios assegura um elevado grau de precisão na tomada de decisão e tole- 
rância em relação a neurônios defeituosos. 


Regra 4. Informação prévia e invariâncias devem ser incorporadas no projeto de uma rede neural, 
simplificando com isso o projeto da rede por não ter que aprendê-las. 


A Regra 4 é particularmente importante porque a aderência adequada a ela resulta em uma 
rede neural com uma estrutura especializada (restrita). Isto é altamente desejável por várias razões 
(Russo, 1991): 


1. Sabe-se que as redes biológicas visuais e auditivas são muito especializadas. 

2. Uma rede neural com estrutura especializada normalmente tem um número menor de parâmetros 
livres disponiveis para ajuste do que uma rede totalmente conectada. Conseqüentemente, a rede 
especializada requer um menor conjunto de dados para treinamento, aprende mais rápido e 
frequentemente generaliza melhor. 
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3. A taxa de transmissão de informação através de uma rede especializada (1.e., a produtividade da 
rede) é acelerada. 

4. O custo de construção de uma rede especializada é reduzido por causa do seu tamanho menor, 
quando comparado com a rede totalmente conectada equivalente, 


Como Incorporar Informação Prévia no Projeto de uma Rede Neural 


Uma questão importante a ser tratada, evidentemente, é como desenvolver uma estrutura espe- 
cializada incorporando informação prévia no seu projeto. Infelizmente, não há atualmente regras 
bem-definidas para fazer isto; em vez disso, temos alguns procedimentos ad-hoc que sabemos que 
produzem resultados úteis. Particularmente, podemos utilizar uma combinação de duas técnicas 
(LeCun et al., 1990a) 


1. Restringir a arquitetura da rede pelo uso de conexões locais conhecidas como campos recept- 
vos." 
2. Restringir a escolha de pesos sinapticos através do uso de compartilhamento de pesos." 


Estas duas técnicas, particularmente a ültima, tém um beneficio marginal vantajoso: o nümero de 
parâmetros livres da rede é reduzido significativamente, 

Para sermos mais específicos, considere a rede alimentada adiante parcialmente conectada da 
Fig. 1.20, Esta rede tem uma arquitetura restrita por construção. Os seis primeiros nós de fonte 
constituem o campo receptivo para о neurônio oculto | e assim por diante para os outros neurônios 





FIGURA 1.20 Ilustração do uso combinado de 
um campo receptivo e de compartilhamento de 


Camada de Camada de Camada de pesos, Todos os quatro neurônios ocultos com- 
entrada de neurónios пеш partilham o mesmo conjunto de pesos para 
пз de fonte ocultos de saida 


suas conaxões sinápticas 


ocultos da rede. Para satisfazer a restrição de compartilhamento de pesos, apenas devemos utilizar 
o mesmo conjunto de pesos sinápticos para cada um dos neurônios da camada oculta da rede. 
Então, para o exemplo mostrado na Fig. 1.20 com seis conexões locais por neurónio oculto e um 


total de quatro neurónios ocultos, podemos expressar o campo local induzido do neurónio oculto j 
como segue 


„= Way. /=1,23,4 (1.29) 
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b Eu = = —" 
onde [wm constitui o mesmo conjunto de pesos compartilhado por todos os quatro neurônios 


ocultos, e x, ёо sinal captado do nó de fonte k = i + j — 1. A Equação (1.29) está na forma de uma 
soma convolutiva. E por este motivo que uma rede alimentada adiante utilizando conexões locais e 
pesos compartilhados da forma aqui descrita é conhecida como rede convolutiva, 

A questão de incorporar informação prévia no projeto de uma rede neural é uma parte da 
Regra 4; a parte restante da regra envolve a questão das invariáncias. 


Como Incorporar Invariâncias no Projeto de uma Rede Neural 


Considere os seguintes fenómenos físicos: 


* Quando um objeto de interesse sofre rotação, o modo como a imagem do objeto é percebida 
por um observador normalmente muda de forma correspondente. 

+ Em um radar coerente que fornece informação tanto de amplitude como de fase sobre o seu 
meio ambiente, o eco vindo de um alvo móvel é deslocado em fregüencıa pelo efeito Doppler 
que surge devido ao movimento radial do alvo em relação ao radar. 

* A locução de uma pessoa pode ser feita em uma voz alta ou baixa, e de maneira lenta ou 
rápida. 


Para construir um sistema de reconhecimento de objetos, um sistema de reconhecimento de alvos 
de radar e um sistema de reconhecimento de voz que possa lidar com estes fenómenos, respectiva- 
mente, o sistema deve ser capaz de lidar com uma série de rransformacoes do smal observado 
(Barnard e Casasent, 1991). Conseqüentemente, um requisito fundamental para o reconhecimento 
de padrões é projetar um classificador que seja invariante a tais transformações. Em outras pala- 
vras, uma estimativa de classe representada por uma saida do classificador não deve ser afetada 
pelas transformações do sinal observado aplicado à entrada do classificador. 

Existem pelo menos três técnicas para implementar uma rede neural do tipo classificador 
invariante à transformações (Barnard e Casasent, 1991): 


1. Anvariância por Estrutura. À invariância pode ser imposta à rede neural estruturando apro- 
priadamente o seu projeto, Mais especificamente, as conexões sinápticas entre os neurônios da 
rede são criadas de forma que versões transformadas da mesma entrada sejam forçadas a produzir a 
mesma saida, Considere, por exemplo, a classificação de uma imagem por uma rede neural com a 
exigência de ela ser independente a rotações no plano da imagem, em torno do seu centro. Podemos 
impor invariáncia rotacional na estrutura da rede da seguinte forma. Seja t£, o peso sináptico do 
neurônio f conectado ao pixel / da imagem de entrada. Se forçarmos a condição w, = w, para todos 
os pixels é e & que se encontrem a distâncias iguais do centro da imagem, então a rede neural será 
invariante a rotações no plano. Entretanto, para que seja mantida a invariáncia rotacional, o peso 
sináptico w, deve ser duplicado para todo pixel da imagem de entrada à mesma distância radial da 
origem. [sto causa uma desvantagem da invariäncia por estrutura: o número de conexões sinäpticas 
da rede neural se torna proibitivamente grande mesmo para imagens de tamanho moderado. 

2. Imvariäncia por Treinamento. Uma rede neural tem uma habilidade natural para classificar 
padrões. Esta habilidade pode ser explorada diretamente para obter invariância a transformações da 
forma descrita a seguir. À rede é treinada apresentando-se um número de exemplos diferentes do 
mesmo objeto, sendo os exemplos escolhidos para corresponder a diferentes transformações (i.e, 
vistas de aspectos diferentes) do objeto. Desde que o número de exemplos seja suficientemente 
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grande e que a rede seja treinada para aprender a discriminar as vistas de aspectos diferentes do 
objeto, podemos então esperar que a rede generalize corretamente para outras transformações que 
não as apresentadas durante o treinamento. Entretanto, por uma perspectiva de engenharia, a 
invariáncia por treinamento tem duas desvantagens. Primeiro, quando a rede neural foi treinada 
para reconhecer um objeto de maneira invariante em relação a transformações conhecidas, não é 
óbvio que este treinamento também capacitará a rede a reconhecer outros objetos de classes dife- 
rentes, de maneira igualmente invariante. Segundo, o esforço computacional imposto à rede pode 
ser demasiadamente severo para se lidar, especialmente se a dimensionalidade do espaço de carac- 
terísticas for elevada. 

3. Espaço de Caracteristicas Invariantes. À terceira técnica de criar uma rede neural invariante 
do tipo classificador está ilustrada na Fig. 1.21. 
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FIGURA 1.21 Diagrama em Blocos 
de um sistema do tipo espaço de 
caracteristicas invariantes 


Entrada 


Ela se baseia na premissa de que pode ser possível se extrair caracteristicas que caracterizem o 
conteúdo essencial da informação de um conjunto de dados de entrada e que sejam invariantes a 
transformações das entradas. Se tais características forem utilizadas, então a rede como um classi- 
ficador é aliviada do fardo de ter que delinear o intervalo de transformações de um objeto com 
fronteiras de decisão complicadas. Na verdade, as únicas diferenças que podem aparecer entre exem- 
plos diferentes do mesmo objeto devem-se a fatores inevitáveis como ruido e oclusão. A utilização 
de um espaço de caracteristicas invariantes oferece três vantagens distintas. Primeiro, o número de 
caracteristicas aplicadas à rede pode ser reduzido a níveis realistas. Segundo, as exigências impos- 
tas ao projeto da rede são relaxadas. Terceiro, é assegurada a invariância para todos os objetos em 
relação a transformações conhecidas (Barnard e Casasent, 1991). Entretanto, para que ela funcio- 
ne, esta abordagem requer conhecimento prévio do problema. 


Concluindo, o uso de um espaço de caracteristicas invariantes, como aqui descrito, pode pro- 
porcionar uma técnica muito adequada para classificadores neurais. 

Para ilustrar a idéia de um espaço de caracteristicas invariantes, considere o exemplo de um 
sistema de radar coerente utilizado para vigilância aérea, onde os alvos de interesse incluem aerona- 
ves, sistemas meteorológicos, bandos de pássaros migratórios e objetos terrestres. Os ecos de radar 
destes alvos possuem diferentes caracteristicas espectrais. Além disso, estudos experimentais mos- 
traram que estes sinais de radar podem ser modelados bastante fielmente como um processo auto- 
regressivo (AR) de ordem moderada (Haykin e Deng, 1991). Um modelo AR é uma forma especial 
de modelo regressivo definido para dados de valores complexos como 


H 

x(n)- У aixin - i etn (1.30) 
onde as la, são os coeficientes AR, M é a ordem do modelo, хіп) é a entrada e ein} é o erro 
descrito como ruido branco. Basicamente, o modelo AR da Eq. (1.30) é representado por um filtro 
de linha de atraso com derivação como ilustrado na Fig. 1.22a para M = 2. De forma equivalente, 
ele pode ser representado por um filtro de grade (lattice filter), como mostrado na Fig. 1.22b, cujos 
coeficientes são chamados de coeficientes de reflexüo. Existe uma correspondência de um para um 
entre os coeficientes AR do modelo da Fig, 1,22a e os coeficientes de reflexão do modelo da Fig. 
1.22b. Os dois modelos representados assumem que a entrada xn} tem um valor complexo, como 
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ein) = a(n) — kn} 





[hi 


FIGURA 1.22 Modelo auto-regressivo de ordem 2: (aj modelo de linha de atraso com derivação: 
(b) modelo de filtro de grade (latice filter. (0 asterisco representa conjugação complexa.) 


no caso de um radar coerente, no qual os coeficientes AR e os coeficientes de reflexão são todos 
valores complexos. O asterisco na Eq. (1.30) e na Fig. 1.22 significa a conjugação complexa. Por 
enquanto, é suficiente se dizer que os dados do radar coerente podem ser descritos por um conjunto 
de coeficientes auto-regressivos, ou por um conjunto correspondente de coeficientes de reflexão. 
Este último conjunto de cocficientes terá uma vantagem computacional, pois existem algoritmos 
eficientes para o seu cálculo diretamente a partir dos dados de entrada. Entretanto, o problema da 
extração de caracteristicas é complicado pelo fato de que objetos em movimento produzem 
frequências Doppler variáveis que dependem de suas velocidades radiais, medidas em relação ao 
radar, e que tendem a obscurecer o conteúdo espectral dos coeficientes de reflexão, usados como 
discriminadores de caracteristicas. Para superar esta dificuldade, devemos incluir а invariancia 
Doppler no cálculo dos coeficientes de reflexão. O ângulo de fase do primeiro coeficiente de refle- 
xäo vem a ser igual à frequência Doppler do sinal de radar. Conseqüentemente, aplica-se a norma- 
lização da frequência Doppler a todos os coeficientes de modo a remover o deslocamento Doppler 
médio. Isto é feito definindo-se um novo conjunto de coeficientes de reflexão ix’, | relacionados 
com o conjunto de coeficientes de reflexão ordinários {к, + calculados a partir dos dados de entrada 
como mostrado a seguir: 


Keke” para m= 1, 2,..., M (1.31) 


onde 8 é o ângulo de fase do primeiro coeficiente de reflexão, A operação descrita pela Eq. (1.31) é 
chamada de heteródina. Um conjunto de caracteristicas de radar invariantes a Doppler é então 
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representado pelos coeficientes de reflexão normalizados K’, K'a ..., Kp com K sendo o único 
coeficiente do conjunto com valor real. Como mencionado anteriormente, as principais categorias 
de alvos de radar de interesse para vigilância aérea são formações meteorológicas, pássaros, acro- 
naves e o solo. Os três primeiros alvos são móveis sendo que o último não o €, Os parámetros 
espectrais heteródinos dos ecos de radar correspondentes ao solo tém ecos similares em termos de 
caracteristicas, áqueles de uma acronave. Um eco do solo pode ser discriminado de um eco de 
aeronave devido ao seu pequeno deslocamento Doppler. Consequentemente, o classificador por 
radar inclui um pós-processador como mostrado na Fig. 1.23, que opera sobre os resultados classi- 
ficados (rótulos codificados) para identificar a classe do solo (Haykin e Deng, 1991). Assim, o pré- 
processador da Fig. 1.23 se ocupa da extração de caracteristicas invariantes a Doppler, enquanto 
que o pós-processador utiliza a assinatura Doppler armazenada para distinguir entre retornos de 
aeronave e de solo. | 
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FIGURA 1.23 Classificador de sinais de radar imariante a deslocamento Doppler 


Um exemplo muito mais fascinante de representação de conhecimento em uma rede neural é 
encontrado no sistema de sonar biológico de morcegos para ecolocalizagäo. A maioria dos morce- 
gos utiliza sinais modulados em fregiiéncia (FM ou "chilro") para fins de rastreamento acústico; em 
um sinal EM a frequência instantánea do sinal varia com o tempo. Especificamente, o morcego 
utiliza a sua boca para transmitir sinais FM de sonar de curta duração e utiliza o seu sistema auditivo 
como um receptor de sonar. Os ecos de alvos de interesse são representados no sistema auditivo 
pela atividade de neurônios que são seletivos a diferentes combinações de parâmetros acústicos. 
Existem três dimensões neurais principais da representação auditiva do morcego (Simmons, 1991; 
Simmons e Saillant, 1992): 


* À fregiiência do eco, que é codificada por “posição” originada no mapa de freqüéncia da 
cóclea; ela é preservada por todo o caminho auditivo como um arranjo ordenado através de 
certos neurônios sintonizados em diferentes frequências. 

e A amplitude do eco, que é codificada por outros neurônios com intervalos dinâmicos diferen- 
tes; ela se manifesta tanto como uma sintonia de amplitude como no número de descargas por 
estímulo, 

e O atraso do eco, que é codificado através de computações neurais (baseadas em correlação 
cruzada) que produzem respostas seletivas ao atraso, ele se manifesta como uma sintonia por 
distância (alcance) do alvo. 


As duas principais caracteristicas do eco de um alvo para o propósito de formação de imagem são o 
espectro para a forma do alvo e o atraso para o alcance do alvo. O morcego percebe a “forma” em 
termos do tempo de chegada dos ecos de diferentes superficies refletoras (brilhos) do alvo. Para is&o 
ocorrer, a informação de fregiiéncia no espectro do eco é convertida em estimativas da estrutura 
temporal do alvo. Experimentos conduzidos por Simmons e co-autores sobre o grande morcego 
marrom, Eptesicus fuscus, identificaram criticamente este processo de conversão como consistindo 
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de transformadas paralelas no dominio tempo e no dominio freqüéncia pelo tempo cujas saidas 
convergentes criam o atraso comum do eixo do alcance de uma imagem percebida do alvo. Aparen- 
temente, a unidade da percepção do morcego é devida a certas propriedades das próprias transfor- 
mações, apesar dos modos distintos como são inicialmente realizadas a representação temporal do 
atraso do eco do sistema auditivo e a representação em frequência do espectro do eco. Além disso, 
as invariâncias das caracteristicas são incorporadas no processo de formação da imagem de sonar 
para fazê-lo essencialmente independente do movimento do alvo e do próprio movimento do mor- 
cego. 

Retornando ao tema principal desta seção, que é a representação do conhecimento em uma 
rede neural, esta questão está diretamente relacionada com a da arquitetura da rede descrita na 
Seção 1.6. Lamentavelmente, não há uma teoria bem desenvolvida para otimizar a arquitetura de 
uma rede neural que deve interagir com um ambiente de interesse, ou para avaliar o modo como 
modificações na arquitetura da rede afetam a representação do conhecimento no interior da rede. 
Na verdade, respostas satisfatórias para estas questões são normalmente encontradas através de um 
estudo experimental exaustivo, com o projetista da rede neural sendo uma parte essencial do ciclo 
de aprendizagem estrutural. 

Independentemente do modo como o projeto é realizado, o conhecimento sobre o dominio do 
problema de interesse é adquirido pela rede de uma forma relativamente simples e direta através de 
treinamento. O conhecimento assim adquirido é representado em uma forma compacta e distribuida 
como pesos através de conexões sinápticas da rede. Enquanto esta forma de representação de co- 
nhecimento permite que a rede neural se adapte e generalize, infelizmente a rede neural sofre da 
incapacidade inerente para explicar, de uma forma abrangente, o processo computacional através 
do qual a rede toma uma decisão ou apresenta suas saidas. Isto pode ser uma limitação séria, parti- 
cularmente naquelas aplicações onde a segurança é a preocupação principal, como no controle de 
tráfego aéreo ou no diagnóstico médico, por exemplo. Em aplicações desta natureza, não é somente 
desejável, mas também absolutamente essencial fornecer alguma forma de capacidade explanativa. 
Uma forma pela qual esta capacidade pode ser incorporada é através da integração de uma rede 
neural e de inteligência artificial em um sistema híbrido, como discutido na próxima seção. 


1.8 INTELIGÊNCIA ARTIFICIAL E REDES NEURAIS 


O objetivo da inteligência artificial (14) é o desenvolvimento de paradigmas ou algoritmos que 
requeiram máquinas para realizar tarefas cognitivas, para as quais os humanos são atualmente me- 
lhares. Esta afirmação sobre ТА é tomada emprestada de Sage, 1990. Note que esta não é a única 
definição aceita para ІА. 

Um sistema de ТА deve ser capaz de fazer três coisas: (1) armazenar conhecimento, (2) aplicar 
o conhecimento armazenado para resolver problemas e (3) adquirir novo conhecimento atraves da 
experiência, Um sistema de [A tem três componentes fundamentais: representação, raciocinio e 
aprendizagem (Sage, 1990), como representado na Fig. 1.24, 


1. Representação. Provavelmente, a caracteristica mais distintiva da LA seja o uso difundido de 
uma linguagem de estruturas simbólicas para representar tanto o conhecimento genérico sobre um 
domínio do problema de interesse como o conhecimento específico sobre a solução do problema. 
Os símbolos são normalmente formulados em termos familiares, o que torna as representações 
simbólicas da IA relativamente fáceis de serem entendidas por um usuário humano. De fato, a 
clareza da LA simbólica a torna bastante adequada para a comunicação homem-máquina. 
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FIGURA 1.24 Ilustração dos 
trés componentes principais de 
um sistema de ІА 


“Conhecimento”, como é utilizado pelos pesquisadores de lA, é apenas mais um termo para 
dados. Ele pode ser do tipo declarativo ou procedimental. Em uma representação declarativa, o 
conhecimento é representado como uma coleção estática de fatos, com um pequeno conjunto de 
procedimentos gerais utilizados para manipular os fatos. Uma caracteristica particular das repre- 
sentações declarativas é que elas parecem possuir um significado próprio, do ponto de vista do 
usuário humano, independente do seu uso dentro do sistema de IA. Em uma representação 
procedimental, por outro lado, o conhecimento está incorporado em um código executável que 
representa o significado do conhecimento. Ambas as formas de conhecimento, declarativo e 
procedimental, são necessárias na maioria dos dominios de problemas de interesse. 

2. Raciocínio, Na sua forma mais básica, raciocinio é a habilidade de resolver problemas. Para um 
sistema ser qualificado como um sistema de raciocimo, ele deve satisfazer certas condições (Fischler 
е Firschein, 1987): 


+ O sistema deve ser capaz de expressar e resolver uma vasta gama de problemas e tipos de 
problemas. 

+ O sistema deve ser capaz de tornar conhecidas para ele tanto a informação explícita como a 
informação implícita, 

+ О sistema deve ter um mecanismo de controle que determine quais operações devem ser apli- 
cadas para um problema particular, quando uma solução para este problema foi obtida, ou 
quando deve ser encerrado o tratamento deste problema. 


A resolução de problemas pode ser vista como um problema de busca. Uma maneira comum de 
lidar com a “busca” é utilizar regras, dados e controle (Nilsson, 1980). As regras operam sobre os 
dados, е o controle opera sobre as regras. Considere, por exemplo, o “problema do caixeiro viajan- 
te”, no qual o objetivo € encontrar o roteiro mais curto que và de uma cidade para outra, com todas 
as cidades no roteiro sendo visitadas somente uma vez. Neste problema, os dados sáo constituidos 
pelo conjunto dos roteiros possiveis e pelos seus custos em um grafo ponderado, as regras definem 
us maneiras de prosseguir de uma cidade para outra, e o controle decide quais regras devem ser 
aplicadas e quando aplicá-las. 

Em muitas situações encontradas na prática (p. ex., no diagnóstico médico), o conhecimen- 
to disponível é incompleto ou inexato. Em tais situações, são utilizados procedimentos de racioci- 
nio probabilístico, permitindo deste modo que sistemas de LÀ lidem com incertezas (Russell e 
Norvig, 1995; Pearl, 1988). 

3. Aprendizagem. No modelo simples de aprendizagem de máquina representado na Fig. 1.25, о 
ambiente fornece alguma informação para um elemento de aprendizagem. 
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FIGURA 1.25 Modelo simples de aprendizagem de máquina 


O elemento de aprendizagem utiliza, então, esta informação para aperfeiçoar a base de conheci- 
mento, € finalmente o elemento de desempenho utiliza a base de conhecimento para executar a sua 
tarefa, Normalmente, a informagáo que o ambiente fornece para a máquina é imperfeita, resultando 
que o elemento de desempenho não sabe previamente como preencher os detalhes ausentes ou 
ignorar os detalhes que não são importantes, Portanto, a máquina opera inicialmente por suposição 
e depois recebe realimentacáo do elemento de desempenho. O mecanismo de realimentação permi- 
te que a máquina avalie suas hipóteses e as revise, se Necessário, 

A aprendizagem de maquina envolve dois tipos bastante diferentes de processamento de infor- 
mação: o indutivo e o dedutivo. No processamento de informação indutivo, padrões gerais e regras 
são determinados a partir dos dados brutos e da experiência. Por outro lado, no processamento de 
informação dedutivo são utilizadas regras gerais para determinar fatos especificos. A aprendizagem 
baseada em similaridade utiliza indução, enquanto que a prova de um teorema é uma dedução 
baseada em axiomas conhecidos e em outros teoremas existentes. A aprendizagem baseada em 
explanação utiliza tanto indução como dedução. 

A importância das bases de conhecimento e as dificuldades experimentadas com a aprendiza- 
gem levaram ao desenvolvimento de vários métodos para aperfeiçoar as bases de conhecimento. 
Especificamente, se existirem especialistas em uma dada área, é normalmente mais fácil obter a 
experiência compilada dos especialistas do que tentar duplicar os experimentos que os levaram a 
adquirir esta experiência. Esta é a idéia por trás dos sistemas especialistas. 

Agora que nos familiarizamos com as máquinas da JA simbólica, como nós as comparariamos 
com as redes neurais como modelos cognitivos? Para esta comparação, seguimos três subdivisões: 
o nivel de explanação, o estilo de processamento e a estrutura representativa (Memmi, 1989). 


1. Nivel de Explanagdo. Na lA clássica, € dada ênfase à construção de representações sinboli- 
cas, que são presumivelmente assim chamadas porque representam algo. Do ponto de vista da 
cognição, а [A assume a existência de representações mentais e ela modela a cognição como o 
processamento sequencial de representações simbólicas (Newell e Simon, 1972). 

Por outro lado, nas redes neurais a ênfase está no desenvolvimento de modelos de processamento 
paralelamente distribuido (PDP, Parallel Distributed Processing). Estes modelos assumem que O 
processamento de informação acontece através da interação de um grande número de neurônios, 
onde cada neurônio envia sinais excitadores e inibitórios para outros neurônios da rede (Rumelhart 
e McClelland, 1986). Além disso, as redes neurais dão grande ênfase à explanação biológica dos 
fenômenos cognitivos, 

2. Estilo de Processamento. Na lA clássica, o processamento é sequencial, como na programa- 
ção de computadores tipica. Mesmo quando não há uma ordenação predeterminada (listando-se os 
fatos e as regras de um sistema especialista, por exemplo), as operações são executadas passo a 
passo. O mais provável é que a inspiração para o processamento sequencial tenha vindo da natureza 
sequencial da linguagem natural e da inferência lógica, bem como da estrutura da máquina de von 
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Neumann. Não devemos esquecer que a IA clássica surgiu pouco depois da máquina de von Neumann, 
durante a mesma era intelectual. 

O paralelismo, ao contrário, não é somente um conceito essencial ao processamento de infor- 
mação em redes neurais, mas é também a fonte de sua flexibilidade. Além disso, o paralelismo pode 
ser maciço (centenas de milhares de neurônios), o que dá às redes neurais uma forma notável de 
robustez. Como a computação esta distribuida sobre muitos neurônios, normalmente não importa 
muito se os estados de alguns neurônios da rede se desviarem de seus valores esperados. Entradas 
ruidosas ou incompletas podem ainda ser reconhecidas, uma rede danificada pode ainda ser capaz 
de funcionar satisfatoriamente, e a aprendizagem não precisa ser perfeita. O desempenho da rede se 
degrada suavemente dentro de um certo limite. A rede pode se tornar ainda mais robusta através da 
“codificação grosseira” (Hinton, 1981), pela qual cada caracteristica é espalhada sobre vários 
neurônios. 

3. Estrutura Representativa. Considerando que perseguimos uma linguagem do pensamento como 
um modelo para a ТА clássica, constatamos que as representações simbólicas possuem uma estrufu- 
ra quase linguística. As expressões da lA clássica, assim como as expressões da linguagem natural, 
são geralmente complexas, construidas de uma forma sistemática a partir de simbolos simples. 
Dado um repertório limitado de simbolos, novas expressões significativas podem ser compostas em 
virtude da capacidade de composição das expressões simbólicas e da analogia entre a estrutura 
sintática e a semántica. 

A natureza e estrutura das representações é, contudo, um problema crucial para as redes neurais, 
Na edição especial de março de 1988 da revista Cognition, Fodor e Pylyshyn fazem criticas vigoro- 
sas sobre a adequação das redes neurais em lidar com cognição e lingüistica. Eles argumentam que 
as redes neurais estão do lado errado em duas questões básicas da cognição: a natureza das repre- 
sentações mentais e a natureza dos processos mentais. De acordo com Fodor e Pylyshyn, pode-se 
afirmar para as teorias da lA clássica, mas nao para as redes neurais, que: 


+ As representações mentais exibem de forma caracteristica uma estrutura constituinte 
combinatória e semântica combinatória. 

+ Os processos mentais são caracteristicamente sensíveis à estrutura combinatória das represen- 
tações sobre as quais operam. 


Em resumo, podemos descrever a LA simbólica como a manipulação formal de uma linguagem de 
algoritmos e representações de dados em uma forma de cima para baixo (top-down). Por outro lado, 
podemos descrever as redes neurais como processadores distribuidos paralelamente com uma habi- 
lidade natural para aprender e que normalmente operam de uma forma de baixo para cima (bottom- 
ир). Portanto, toma-se evidente que, para a implementação de tarefas cognitivas, melhor que procu- 
rar soluções baseadas em LA simbólica ou em redes neurais isoladamente, uma abordagem potenci- 
almente mais vantajosa seria construir modelos conexionistas estruturados ou sistemas hibridos 
que integrem ambas as abordagens. Fazendo isso, somos capazes de combinar as características 
desejáveis de adaptabilidade, rohustez e uniformidade oferecidas pelas redes neurais com a repre- 
sentação, inferência e universalidade, que são caracteristicas inerentes da IA simbólica (Feldman, 
1992: Waltz, 1997). De fato, foi com este objetivo em mente, que foram desenvolvidos vários méto- 
dos para extração de regras a partir de redes neurais treinadas. Além do entendimento de como as 
abordagens simbólica e conexionista podem ser integradas para construir máquinas inteligentes, һа 
várias outras razões para a extração de regras de redes neurais (Andrews e Diederich, 1996): 
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* Validar componentes de redes neurais em sistemas programados, tornando os estados internos 
da rede neural acessíveis e compreensíveis ao usuário. 

è Melhorar o desempenho de gencralização das redes neurais, (1) identificando regiões do espa- 
ço de entrada onde os dados de treinamento não estão adequadamente representados, ou (2) 
indicando as circunstâncias onde a rede neural pode falhar na generalização. 

+ Descobrir caracteristicas marcantes dos dados de entrada para exploração de dados (minera- 
ção de dados, data mining). 

* Fornecer meios de atravessar a fronteira entre as abordagens conexionista e simbólica para o 
desenvolvimento de máquinas inteligentes. 

e Satisfazer a critica necessidade de segurança em uma classe especial de sistemas na qual 
segurança é uma condição obrigatória. 


1.9 NOTAS HISTÓRICAS 


Concluímos este capítulo introdutório sobre redes neurais com algumas notas históricas." 

A era moderna das redes neurais começou com o trabalho pioneiro de McCulloch e Pitts 
(1943). McCulloch foi um psiquiatra e neuroanatomista por treinamento; passou cerca de 20 anos 
refletindo sobre a representação de um evento no sistema nervoso, Pitts foi um prodígio matemático 
que se associou a McCulloch em 1942. De acordo com Rall (1990), o artigo de 1943 de McCulloch 
e Pitts surgiu dentro de uma comunidade de modelagem neural que tinha estado em atividade na 
University of Chicago por pelo menos cinco anos antes de 1943, sob a liderança de Rashevsky. 

No seu clássico artigo, McCulloch e Pitts descrevem um cálculo lógico das redes neurais que 
unificava os estudos de neurofisiologia e da lógica matemática. Eles assumiam que o seu modelo 
formal de um neurônio seguia uma lei “tudo ou nada". Com um número suficiente dessas unidades 
simples e com conexões sinápticas ajustadas apropriadamente e operando de forma sincrona, 
McCulloch e Pitts mostraram que uma rede assim constituida realizaria, a principio, a computação 
de qualquer função computável. Este era um resultado muito significativo e com ele é geralmente 
aceito o nascimento das disciplinas de redes neurais e inteligência artificial. 

O artigo de 1943 de McCulloch e Pitts foi amplamente lido naquele tempo e ainda o é. Ele 
influenciou von Neumann à usar chaves de atraso idealizadas, derivadas do neurônio de MeCulloçh- 
Pitts na construção do EDVAC (Electronic Discrete Variable Automatic Computer) que foi desen- 
volvido a partir do ENIAC ( Electronic Numerical Integrator and Computer) (Aspray e Burks, 1986). 
O ENIAC foi o primeiro computador eletrónico de propósito geral, que foi construido na Escola de 
Engenharia Elétrica Moore da University of Pennsylvania de 1943 a 1946. A teoria de MeCulloch- 
Pitts sobre redes neurais formais se destacou de forma proeminente na segunda das quatro palestras 
proferidas por von Neumann na University of Illinois em 1949. 

Em 1948, foi publicado o famoso livro Cybernetics de Wiener, descrevendo alguns conceitos 
importantes sobre controle, comunicação e processamento estatístico de sinais. A segunda edição 
do livro foi publicada em 1961, adicionando material novo sobre aprendizagem e auto-organização. 
No Capítulo 2 de ambas as edições desse livro, Wiener parece compreender o significado físico da 
mecânica estatística no contexto desse assunto, mas foi com Hopfield (mais de 30 anos depois) que 
se conseguiu consumar a ligação entre a mecânica estatística e os sistemas de aprendizagem. 

O próximo desenvolvimento significativo das redes neurais veio em 1949, com a publicação 
do livro de Hebb The Organization of Behavior, no qual foi apresentada pela primeira vez uma 
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formulação explicita de uma regra de aprendizagem fistológica para à modificação sinaptica. Espe- 
cificamente, Hebb propós que a conectividade do cérebro é continuamente modificada conforme 
um organismo vai aprendendo tarefas funcionais diferentes e que agrupamentos neurais são cria- 
dos por tais modificações. Hebb deu seguimento a uma sugestão anterior de Ramón y Cajál e apre- 
sentou o seu agora famoso postulado de aprendizagem, que afirma que a eficiência de uma sinapse 
variável entre dois neurônios é aumentada pela ativação repetida de um neurônio causada pelo outro 
neurônio, através daquela sinapse. O livro de Hebb foi imensamente influente entre os psicólogos, 
mas lamentavelmente ele teve pouco ou nenhum impacto sobre a comunidade de engenharia. 

O livro de Hebb tem sido uma fonte de inspiração para o desenvolvimento de modelos 
computacionais de sistemas adaptativas e de aprendizagem, O artigo de Rochester, Holland, Haibt 
e Duda (1956) talvez seja a primeira tentativa de usar simulação computacional para testar uma 
teoria neural bem-formulada com base no postulado de aprendizagem de Hebb; os resultados de 
simulação relatados naquele artigo mostram claramente que se deve adicionar inibição para que a 
teoria realmente funcione. Naquele mesmo ano, Uttley (1956) demonstrou que uma rede neural 
com sinapses modificaveis pode aprender a classificar conjuntos simples de padrões binários em 
classes correspondentes. Uttley introduziu o assim chamado neurônio integra e dispara com fuga, O 
qual foi mais tarde analisado formalmente por Cataniello (1961). Em um trabalho posterior, Uttley 
(1979) formulou a hipótese de que a eficiência de uma sinapse variável do sistema nervoso depende 
da relação estatistica entre os estados flutuantes em ambos os lados daquela sinapse, fazendo assim 
uma associação com a teoria da informação de Shannon. 

Em 1952, toi publicado o livro de Ashby, Design for a Brain: The Origin of Adaptive Behavior, 
que é tão fascinante de ser lido høje em dia como deve té-lo sido naquela época, O livro trata da 
noção basica de que o comportamento adaptativo não é inato mas sim é aprendido, e que através da 
aprendizagem o comportamento de um animal (sistema) normalmente muda para melhor. O livro 
enfatizava os aspectos dinâmicos do organismo vivo como uma máquina e o conceito correlacionado 
de estabilidade. 

Em 1954, Minsky escreveu uma tese de doutoramento em "redes neurais” na University of 
Princeton, intitulada "Theory of Neural-Analog Reinforcement Systems and fts Application to the 
Brain-Model Problem”. Em 1961, foı publicado um artigo excelente de Minsky sobre ТА intitulado 
“Steps Toward Artificial Intelligence”, este artigo contém uma grande seção sobre o que agora ё 
denominado redes neurais. Em 1967, foi publicado o livro de Minsky, Computation: Finite and 
Infinite Machines. Este livro, escrito de forma clara, estendeu os resultados de 1943 de McCulloch 
e Pitts e os colocou no contexto da teoria dos autómatos e da teoria da computação, 

Também em 1954, a idéia de um filtro adaptativo ndo-linear foi proposta por Gabor, um dos 
pioneiros da teoria da comunicação e o inventor da holografia. Ele construiu essa máquina com a 
ajuda de colaboradores, € os detalhes estão descritos em Gabor et al. (1960). A aprendizagem era 
realizada alimentando-se a máquina com amostras de um processo estocástico, juntamente com a 
função-alvo que a máquina deveria produzir. 

Nos anos 50, iniciou-se o trabalho sobre a memoria associativa por Taylor (1956). Ele foi 
seguido por Steinbruch (1961) que introduziu a matriz de aprendizagem, esta matriz consiste de 
uma rede planar de chaves interpostas entre arranjos de receptores “sensoriais” e atuadores “moto- 
res". Em 1969, foi publicado por Willshaw, Buneman e Longuet-Higgins um elegante artigo sobre 
a memória associativa não-holográfica. Este artigo apresenta dois modelos engenhosos de rede: um 
sistema ótico simples realizando uma memória de correlação e uma rede neural intimamente 
relacionada com ele, inspirada na memória óptica. Outras contribuições significativas ao desen- 
volvimento inicial da memória associativa incluem os artigos de Anderson (1972), Kohonen (1972) 
e Nakano (1972), que de maneira independente с no mesmo ano introduziram a idéia de uma memd- 
ria por matriz de correlação, bascada na regra de aprendizagem do produto externo. 
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Von Neumann foi uma das grandes figuras da ciéncia na primeira metade do século vinte. A 
arquitetura de von Neumann, básica para o projeto de um computador digital, é assim denominada 
em sua homenagem. Em 1955, foi convidado pela Universidade de Yale para proferir as Palestras 
Silliman durante 1956. Ele morreu em 1957, e o manuscrito inacabado das Palestras Silliman foi 
publicado mais tarde como um livro, The Computer and the Brain (1958). Este livro é interessante 
porque sugere o que von Neumann teria feito se tivesse vivido; ele teria se dado conta das diferenças 
profundas entre cérebros e computadores. 

Lima questão particularmente interessante по contexto das redes neurais é aquela do projeto 
de uma rede confiável com neurônios que podem ser vistos como componentes não-confiáveis. Este 
problema importante foi resolvido por von Neumann (1956) utilizando a idéia de redundância, o 
que motivou Winograd e Cowan (1963) a sugerir a utilização de uma representação redundante 
distribuida para as redes neurais. Winograd c Cowan mostraram como um número grande de ele- 
mentos pode coletivamente representar um conceito individual, com o aumento correspondente em 
robustez e paralelismo. 

Cerca de 15 anos após a publicação do clássico artigo de McCulloch e Pitts, uma nova aborda- 
gem para o problema de reconhecimento de padrões foi introduzida por Rosenblatt (1958) em seu 
trabalho sobre o percepiron, um método inovador de aprendizagem supervisionada. O coroamento 
do trabalho de Rosenblatt foi o chamado teorema da convergencia de perceptron, cuja primeira 
demonstração foi delineada por Rosenblatt (19606); outras provas do teorema também apareceram 
em Novikoff (1963) e outros. Em 1960, Widrow e Hoff introduziram o algoritmo do mínimo qua- 
drado medio (LMS, Least Mean- Square) eo usaram para formular o Adaline (adaptive linear element, 
elemento linear adaptativo). A diferenga entre o perceptron e o Adaline está no procedimento de 
aprendizagem, Uma das primeiras redes neurais em camadas treináveis com múltiplos elementos 
adaptativos foi a estrutura Madaline (multiple-adaline) proposta por Widrow e seus estudantes 
(Widrow, 1962). Em 1967, Amar: utilizou o método do gradiente estocástico para classificação 
adaptativa de padrões. Em 1965, foi publicado o livro de Nilsson, Learning Machines que ainda é a 
exposição mais bem escrita sobre padrões lincarmente scparäveis por hipersuperficies. Durante о 
periodo clássico do perceptron nos anos 1960, parecia que as redes neurais poderiam realizar qual- 
quer coisa. Mas então veio o livro de Minsky e Papert (1969), que utilizaram a matemática para 
demonstrar que existem limites fundamentais para aquilo que os perceptrons de camada única po- 
dem calcular. Em uma breve seção sobre perceptrons de múltiplas camadas, eles afirmavam que não 
havia razão para supor que qualquer uma das limitações do perceptron de camada única poderia ser 
superada na versão de multiplas camadas. 

Um problema importante encontrado no projeto de um perceptron de múltiplas camadas é o 
problema de atribuição de crédito (Le., o problema de atribuir crédito a neurônios ocultos da rede). 
A terminologia “atribuição de crédito” foi utilizada primeiro por Minsky (1961), sob o titulo de “O 
Problema de Atribuição de Crédito para Sistemas de Aprendizagem por Reforço”. No final dos anos 
1960, já havia sido formulada a maioria das idéias e conceitos necessários para resolver o problema 
de atribuição de crédito do perceptron, hem como muitas das idéias que fundamentam as redes 
(neurais de atratores) recorrentes que são agora denominadas redes de Hopfield. Entretanto, tive- 
mos que esperar até os anos 50 para que emergissem as soluções para esses problemas básicos. De 
acordo com Cowan (1990) houve três razões para este atraso de mais de 10 anos: 


* Uma razão foi tecnológica — não havia computadores pessoais ou estações de trabalho para а 
experimentação. Quando Gabor, por exemplo, desenvolveu o seu filtro não-linear de aprendi- 
zagem, seu grupo de pesquisadores levou mais seis anos para construir o filtro com dispositi- 
vos analógicos (Gabor, 1954; Gabor et al, 1960), 
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* А outra razão foi em parte psicológica e em parte financeira. A monografia de 1969 de 
Minsky e Papert certamente nào encorajou ninguém a trabalhar com perceptrons, tampouco 
as agências a apoiar trabalhos sobre eles, 

e A analogia entre redes neurais e spins de grade foi prematura. O modelo do vidro de spins de 
Sherrington e Kirkpatrick foi inventado somente em 1975. 


Estes fatores contribuiram de um modo ou de outro para o esmorecimento do interesse continuado 
em redes neurais nos anos 70. Muitos pesquisadores, com exceção daqueles que trabalhavam em 
psicologia e em neurociéncias, abandonaram a área durante aquela década. De fato, somente um 
punhado dos pioneiros originais mantiveram seu comprometimento com as redes neurais. De uma 
perspectiva de engenharia, podemos considerar os anos 70 como uma década de adormecimento 
para as redes neurais. 

Uma atividade importante que emergiu nos anos 70 foram os mapas auto-organizaveis utili- 
zando aprendizagem competitiva. O trabalho em simulação computacional feito por von der Malsburg 
(1973) talvez tenha sido o primeiro a demonstrar a auto-organização. Em 1976, Willshaw e von der 
Malsburg publicaram o primeiro artigo sobre a formação de mapas auto-organizáveis, motivados 
pelos mapas ordenados de forma topológica do cérebro, 

Nos anos BO, foram feitas importantes contribuições em várias frentes à teoria e ao projeto de 
redes neurais, e com isso houve um ressurgimento do interesse pelas redes neurais. 

Grossberg (1980), baseando-se no seu trabalho anterior sobre aprendizagem competitiva 
(Grossberg, 1972, 19764, b), estabeleceu um novo principio de auto-organização conhecido como 
teoria da ressonância adaptativa (ART, Adaptive Resonance Theory). Basicamente, a teoria envol- 
ve uma camada de reconhecimento de baixo para cima (bottomaup) e uma camada generativa de 
cima para baixo (tap-down). Se o padrão de entrada e o padrão realimentado aprendido coincidi- 
rem, então ocorre um estado dinâmico chamado de “ressonância adaptativa” (i.e., amplificação e 
prolongamento da atividade neural). Este princípio de projeções para frente/para trás foi redescoberto 
por outros pesquisadores sob diferentes aspectos. 

Em 1982, Hopfield utilizou a idéia de uma função de energia para formular um novo modo de 
se entender a computação executada por redes recorrentes com conexões sinápticas simétricas. 
Além disso, ele estabeleceu o isomorfismo entre uma rede recorrente assim definida е o modelo 
Ising utilizado na fisica estatistica. Esta analogia desencadeou um grande interesse da física teórica 
(e dos físicos) pela modelagem neural, transformando com isso a área de redes neurais. Esta classe 
particular de redes neurais com realimentação atraiu muita atenção nos anos 1980, e no decorrer do 
tempo tornou-se conhecida como redes de Hopfield. Apesar de as rede de Hopfield não serem 
modelos realisticos dos sistemas neurobiológicos, o princípio que elas incorporam, isto é, o 
armazenamento de informação em redes dinamicamente estáveis, é profundo. À origem deste prin- 
cipio remonta ao trabalho pioneiro de muitos outros investigadores: 


• Cragg e Tamperley (1954, 1955) observaram que assim como os neurônios podem ser “dispa- 
rados” (ativados) ou “não disparados” (quiescentes), também os átomos em uma rede tém 
seus spins apontando "para cima" ou “para baixo”. 

* Cowan (1957) introduziu a caracteristica de disparo “sigmóide” e a condição de disparo suave 
para um neurônio que era bascada na função logistica, 

• Grossberg (1967, 1968) introduziu o modelo aditivo de um neurônio, envolvendo equações 
náo-lineares de diferenças diferenciais e explorou o uso do modelo como uma base para а 
memória de curto prazo. 
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e Amari (1972) introduziu, de forma independente, o modelo aditivo de um neurônio e o utili- 
zou para estudar o comportamento dinámico de elementos semelhantes a neurônios conectados 
alcatoriamente. 

* Wilson e Cowan (1972) derivaram equações diferenciais náo-lineares acopladas correspon- 
dentes à dinámica de populações localizadas no espaço, contendo neurônios tanto excitadores 
como inibitórios. 

* Little e Shaw (1975) descreveram um modelo probabilístico de um neurônio, quer disparando 
ou não um potencial de ação, € usaram o modelo para desenvolver uma teoria da memória de 
Curto prazo. 

+ Anderson, Silverstein, Ritz e Jones (1977) propuseram o modelo do estado cerebral em uma 
caixa (hrain-state-in-a-box, BSB), consistindo de uma rede associativa simples acoplada a 
uma dinâmica não-linear. 


Não causa surpresa, portanto, que a publicação do artigo de Hopfield em 1982 tenha gerado tanta 
controvérsia. Apesar disso, foi neste mesmo artigo que pela primeira vez o principio do 
armazenamento de informação em redes dinamicamente estáveis foi explicitado. Além disso, Hopfield 
mostrou que ele havia se baseado no modelo do vidro de spins da mecânica estatística para exami- 
nar o caso especial das redes recorrentes com conexões simétricas, garantindo com 1550 a sua con- 
vergência para uma condição estável, Em 1983, Cohen e Grossberg estabeleceram um principio 
geral para estimar a estabilidade de uma memoria enderecavel por conteúdo, que inclui a versão de 
tempo continuo da rede de Hopfield como um caso especial. Uma caracteristica distintiva de uma 
rede neural de atratores é o modo natural como o tempo, uma dimensão essencial para a aprendiza- 
gem, se manifesta na dinâmica não-linear da rede. Neste contexto, o teorema de Cohen-Grossberg 
é de profunda importância. 

Um outro desenvolvimento importante em 1982 foi a publicação do artigo de Kohonen sobre 
os mapas auto-organizäveis (Kohonen, 1982), utilizando uma estrutura de rede unidimensional ou 
bidimensional, que era em alguns aspectos diferente do trabalho anterior de Willshaw e von der 
Malsburg. O modelo de Kohonen recebeu muito mais atenção em um contexto analítico e em rela- 
ção às aplicações na literatura que o modelo de Willshaw-von der Malsburg, e tornou-se uma rete- 
rência para a avaliação de oulras inovações neste campo, 

Em 1983, Kirkpatrick, Gelati e Vecchi descreveram um novo procedimento denominado 
recozimento simulado, para resolver problemas de otimização combinatória. O recozimento simu- 
lado tem suas raízes na mecânica quântica. Ele é baseada em uma técnica simples que foi primeira- 
mente utilizada em simulações computacionais por Metropolis et al. (1953). A idéia do recozimento 
simulado foi utilizada mais tarde por Ackley, Hinton e Sejnowski (1985) no desenvolvimento de 
uma máquina estocástica conhecida como a maguina de Boltzmann, que foi a primeira realização 
bem-sucedida de uma rede neural de múltiplas camadas. Apesar de o algoritmo de aprendizagem da 
máquina de Boltzmann não ter se mostrado tão eficiente do ponto de vista computacional como o 
algoritmo de retropropagação (Back-propagation), ele superou o impasse psicológico, mostrando 
que a especulação de Minsky e Papert (1969) não estava corretamente embasada. A máquina de 
Boltzmann também serviu de base para o desenvolvimento subsequente das redes de crença siembide 
de Neal (1992), que conseguiu realizar duas coisas: (1) a melhoria significativa da aprendizagem e 
(2) a ligação das redes neurais às redes de crença (Pearl, 1988). Uma melhoria adicional no desem- 
penho das redes de crença sigmóide foi realizada por Saul, Jakkolla e Jordan (1996) utilizando a 
teoria do campo médio, uma técnica também com raizes na mecânica estatística. 

Um artigo de Barto, Sutton e Anderson sobre aprendizagem por reforço foi publicado em 
1983. Apesar de eles não terem sido os primeiros a utilizar aprendizagem por reforço (Minsky a 
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levou em consideração na sua tese de doutorado em 1954, por exemplo), seu artigo gerou muito 
interesse em aprendizagem por reforço e na sua aplicação em controle. Especificamente, eles de- 
monstraram que um sistema de aprendizagem por reforço poderia aprender a equilibrar um cabo de 
vassoura (Le., um mastro montado sobre uma carreta) na ausência de um professor auxiliar. O 
sistema requeria somente um sinal de insucesso que ocorre quando o mastro, ao cair, ultrapassa um 
ângulo crítico a partir da vertical, ou quando a carreta alcança o final da pista. Em 1996, foi publi- 
cado o livro Neurodynamic Programming de Bertsekas e Tsitsiklis. Este livro colocou a aprendiza- 
gem por reforço sobre uma hase matemática apropriada, ligando-a à programação dinâmica de 
Bellman. 

Em 1984, foi publicado o livro de Braitenberg, Vehicles: Experiments in Synthetic Psychology. 
Neste livro, Braitenberg defende o principio do desempenho auto-organizado, direcionado a objetivo: 
obtém-se um melhor entendimento de um processo complexo pela sintese de mecanismos elemen- 
tares putativos do que por uma análise de cima para baixo (top-dewn). Sob o pretexto da ficção 
cientifica, Braitenberg ilustra este importante principio descrevendo vàrias máquinas com uma 
arquitetura interna simples. Ås propriedades das máquinas e seu comportamento são inspirados em 
fatos acerca dos cérebros de animais, um assunto que ele estudou diretamente ou indiretamente por 
mais de 20 anos. 

Em 1986, foi relatado por Rumelhart, Hinton e Williams (1986) desenvolvimento do algoritmo 
de retropropagação (back-propagation). Naquele mesmo ano, foi publicado o célebre livro em dois 
volumes, Parallel Distributed Processing: Explorations in the Microstructures of Cognition, edita- 
do por Rumelhart e MeClelland. Este livro exerceu uma grande influência na utilização da aprendi- 
zagem por retropropagação, que emergiu como o algoritmo de aprendizagem mais popular para o 
treinamento de perceptrons de múltiplas camadas. Na verdade, a aprendizagem por retropropagação 
{сы descoberta de modo independe em outros dois lugares, na mesma época (Parker, 1985; LeCun, 
1985). Após a descoberta do algoritmo de retropropagação em meados dos anos 1980, revelou-se 
que o algoritmo havia sido descrito anteriormente por Werbos na sua tese de doutorado na Univer- 
sidade de Harvard em agosto de 1974; a tese de doutorado de Werbos foi a primeira descrição 
documentada da computação eficiente do gradiente em modo reverso que foi aplicada a modelos 
gerais de redes, sendo as redes neurais um caso especial. A idéia básica da retrogradação pode ainda 
ser encontrada mais anteriormente no livro Applied Optimal Control de Bryson e Ho (1969). Na 
Seção 2.2, intitulada "Sistemas de Multiestágios" daquele livro, é descrita uma derivação da 
retropropagação utilizando um formalismo lagrangiano. Em última análise, entretanto, deve-se atri- 
buir muito do crédito pelo algoritmo de retropropagação a Rumelhart, Hinton e Williams (1986), 
por proporem a sua utilização para a aprendizagem de máquina e por demonstrarem como isto 
poderia funcionar. 

Em 1988, Linkser descreveu um novo princípio para a auto-organização em uma rede perceptiva 
(Linkser, 19882). O principio é concebido para preservar o máximo de informação sobre os padrões 
de atividade das entradas, sujeito a limitações como as conexões sinápticas e o intervalo dinâmico 
das sinapses. Uma sugestão similar foi feita independentemente por vários pesquisadores da visão. 
Entretanto, foi Linkser quem utilizou conceitos abstratos baseados na teoria da informação (formu- 
lada por Shannon em 1948) para formular o principio da máxima informação mútua (Infomax). O 
artigo de Linkser reacendeu o interesse pela aplicação da teoria da informação às redes neurais. Em 
particular, a aplicação da teoria da informação ao problema da separação cega de fontes por Bell e 
Sejnowski (1995) provocou muitos pesquisadores a explorar outros modelos teóricos da informa- 
ção para resolver uma vasta classe de problemas, conhecidos coletivamente como deconvolucdo 
сера. 
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Também em 1988, Broomhead e Lowe descreveram um procedimento para o projeto de redes 
alimentadas adiante, em camadas utilizando funções de base radial (ЕВЕ, radial basis function), as 
quais fornecem uma alternativa aos perceptrons de múltiplas camadas. A idéia básica das funções 
de base radial remonta pelo menos ao método das funções de potencial que foi proposto original- 
mente por Bashkirov, Braverman e Muchnik (1964), e cujas propriedades teóricas foram desenvol- 
vidas por Aizerman, Braverman e Rozonoer (1964a, b). Uma descrição do método das funções de 
potencial é apresentada no clássico livro, Pattern Classification and Scene Analysis de Duda e Hart 
(1973). Apesar disso, o artigo de Broomhead e Lowe levou a um grande esforço em pesquisa para 
ligar o projeto de redes neurais a uma importante área da análise numérica e também aos filtros 
lineares adaptativas. Em 1990, Poggio e Girosi (19902) enriqueceram ainda mais a teoria das redes 
RBF aplicando a teoria da regularização de Tikhonov. 

Em 1989, foi publicado o livro de Mead, Analog FLS! and Neural Systems. Este livro fornece 
uma mistura inusitada de conceitos retirados da neurobiologia e da tecnologia VLSI, Sobretudo, ele 
inclui capitulos sobre a retina de silicio e a cóclea de silicio, escrito por Mead e co-autores, que são 
claros exemplos da mente criativa de Mead. 

No início dos anos 90, Vapnik e co-autores inventaram uma classe de redes de aprendizagem 
supervisionada poderosa do ponto de vista computacional, chamada de maquinas de vetor de su- 
porte, para ser utilizada em reconhecimento de padrões, regressão e problemas de estimação de 
densidade (Boser, Guyon e Vapnik, 1992; Cortes e Vapnik, 1995; Vapnik, 1995, 1998). Este método 
novo se baseia nos resultados da teoria de aprendizagem com tamanhos de amostra finitos. Uma 
característica inovadora das máquinas de vetor de suporte é o modo natural pelo qual a dimensão de 
Vapnik-Chervonenkis (V-C) é incorporada no seu projeto. À dimensão V-C fornece uma medida 
para a capacidade de uma rede neural de aprender a partir de um conjunto de exemplos (Vapnik e 
Chervonenkis, 1971; Vapnik, 1982). 

Agora já está bem estabelecido que o caos constitui um aspecto-chave de fenômenos físicos. 
A questão que muitos levantam é: existe um papel importante para o caos no estudo de redes neurais”? 
Em um contexto biológico, Freeman (1995) acredita que a resposta a esta questão é afirmativa. De 
acordo com Freeman, os padrões de atividade neural não são impostos de fora do cérebro; em vez 
disso eles são construídos a partir do seu interior. Em particular, a dinâmica caótica oferece uma 
base para descrever as condições que são requeridas para a emergência de padrões auto-organiza- 
dos em populações de neurônios e entre estas populações. 

Talvez mais do que qualquer outra publicação, o artigo de 1982 de Hopfield e o livro em dois 
volumes de 1986 de Rumelhart e McClelland foram as publicações mais influentes, responsáveis 
pelo ressurgimento do interesse em redes neurais nos anos 1980. As redes neurais certamente trilha- 
ram um longo caminho desde os dias iniciais de McCulloch e Pitts. De fato, elas se estabeleceram 
como um tema interdisciplinar com raizes profundas em neurociências, psicologia, matemática, 
ciências fisicas e engenharia, É desnecessário dizer que elas estão aqui para ficar e que continuarão 
a crescer em teoria, projeto e aplicações. 


NOTAS E REFERÊNCIAS 


1. Esta definição de uma rede neural é adaptada de Aleksander e Morton (1990). 
Para uma perspectiva complementar sobre redes neurais com ênfase em modelagem neural, 
cognição e considerações neurofisiológicas, veja Anderson (1995), Para um relato bastan- 
te legível dos aspectos computacionais do cérebro, veja Churchland е Sejppowski (1992). 
Para descrições mais detalhadas dos mecanismos neurais e do cérebro humano, veja Kandel 
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PROBLEMAS 


е Schwartz (1991), Shepherd (1990a, b), Koch e Segev (1989), Kuffler et al. (1984) е 
Freeman (1975). 

Para um relato minucioso das funções sigmóides e questões relacionadas, veja Menon et 
al. (1996). 

A função logistica, ou mais precisamente a função de distribuição logistica, deriva seu 
nome de uma "lei de crescimento logistico" transcendental que resultou em uma imensa 
literatura. Se medidos em unidades apropriadas, todos os processos de crescimento são 
supostamente representados pela função distribuição logistica 





Fitz RE: 
onde / representa o tempo, ео e [5 são constantes, Entretanto, verificou-se que não someri- 
te a distribuição logistica mas também a gaussiana e outras distribuições podem ser aplica- 
das aos mesmos dados com os mesmos resultados de ajuste ou até melhores (Feller, 1968). 
De acordo com Kutfler et al. (1984), o termo “campo receptivo” foi cunhado originalmen- 
te por Sherrington (1906) e introduzido novamente por Hartline (1940). No contexto de 
um sistema visual, o campo receptivo de um neurônio se refere à área restrita sobre a 
superficie retinal, que influencia as descargas daquele neurônio causadas pela luz. 
Aparentemente, a técnica de compartilhamento de pesos foi originalmente descrita em 
Rumelhart et al. (1986b). 

As notas históricas apresentadas aqui sào enormemente (mas nào exclusivamente) basea- 
das nas seguintes fontes: (1) o artigo de Saarinen et al, (1992); (2) o capítulo escrito por 
Rall (1990); (3) o artigo de Widrow e Lehr (1990), (4) os amigos de Cowan (1990) e 
Cowan é Sharp (1988); (5) 0 artigo de Grossberg (1988c); (6) o livro em dois volumes 
sobre computação neural (Anderson et al, 1990; Anderson е Rosenfeld, 1988); (7) o tapi- 
tulo escrito por Selfndge et al. (1988), (8) a coleção de artigos de von Neumann sabre 
computação e teoria da computação (Aspray e Burks, 1986); (9) o manual sobre a teoria 
do cérebro e redes neurais editado por Arbib (1995); (10) o Capitulo | do livro de Russel 
е Norvig (1995), e (11 o artigo de Taylor (1997). 


Modelos de um neurónio 


Um exemplo de função logistica é definida por 


v) = ————— 
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cujos valores limites são 0 e 1. Mostre que a derivada de q (v) em relação a v é dada por 
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Uma função sigmóide impar é definida por 
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onde tanh representa a tangente hiperbólica. Os valores limites desta segunda função 
sigmöide são =| e +1, Mostre que a derivada de qp (1) em relação a v é dada por 


d 
= jl -«'(v)) 


Qual é o valor desta derivada na origem? Suponha que o parâmetro de inclinação a seja 
infinitamente grande. Qual é a forma resultante de q (1) 7 
Uma outra função sigmóide impar é a sigmóide algébrica: 


cujos valores limites são —1 e * 1. Mostre que a derivada de qp (v) em relação a v é dada por 


de e) 
du y 


Qual € 0 valor destá derivada na origem? 
Considere as duas seguintes funções: 


i -L spo 
(1) = | e 2 


2 
(ii) mar шп (17) 


Explique por que estas duas funções satisfazem os requisitos de uma função sigmóide. De 
que modo estas duas funções diferem entre si? 

Qual das cinco funções sigmórdes descritas nos Problemas 1.1 a 1.4 seria qualificada como 
uma função distribuição (de probabilidade) cumulativa? Justifique a sua resposta. 
Considere a função de ativação pseudolinear ip (7) mostrada na Fig. P1.6. 
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FIGURA P1.6 


(a) Formule q (1) como uma função de v. 

(b) O que acontece com q (4) se a aproximar-se de zero? 

Repita o Problema 1.6 para a função de ativação pseudolinear q (7) mostrada na Fig. P1.7. 
Um neurônio tem uma função de ativação q (v) definida pela função logistica do problema 
1.1, onde v é o campo local induzido, e o parâmetro de inclinação a está disponível para 
ajustes. Considere que x, Xy .... x. , representem os sinais de entrada aplicados aos nós de 
fonte do neurônio e que ^ represente o bias. Por conveniência de representação, podemos 
fazer com que o parámetro de inclinação a seja absorvido pelo campo local induzido +, 
escrevendo 


ez | + exp-- t) 
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1.10 





FIGURA P1.7 


Como você modificaria as entradas х, Xyu X, de forma a produzir a mesma saida de 
antes? Justifique a sua resposta. 

Um neurônio г recebe entradas de quatro outros neurônios cujos niveis de ativação são 10, 
-20, 4 e —2. Os respectivos pesos sinápticos do neurônio | são 0,5, 0,2, —1,0 e -0,9, Calcule 
a saida do neurônio / para as duas seguintes siluações: 

(ар O meurônio é linear. 

(b) O neurônio é representado por um modelo de MeCulioch-Pitts. 

Assuma que o bias aplicado ao neurônio é zero. 

Repita o Problema 1.9 para um modelo de neurônio baseado na função logistica 


gie) 1+ expi-t) 

(a) Mostre que o modelo formal de MeCulloch-Pitts de um neurónio pode ser aproxima- 
do por um neurônio sigmóide (i.e, um neurônio que utiliza uma função de ativação 
sigmóide) com pesos sinápticos grandes. 

(b) Mostre que um neurônio linear pode ser aproximado por um neurônio sigmóide com 
pesos sinápticos pequenos. 


Arquiteturas de rede 


1.12 


1.13 


1,14 


1.15 


1.16 
1.17 


Uma rede alimentada adiante totalmente conectada tem 10 nós de fonte, 2 camadas ocul- 
tas, uma com 4 neurônios e a outra com 3 neurônios e um único neurônio de saida. Cons- 
mua um grafo arquitetura! desta rede. 

(a) A Figura P1.13 mostra um grafo de fluxo de sinal de uma rede 2-2-2-] alimentada 
adiante. A função qx.) representa uma função logística. Escreva o mapeamento de 
entrada-saida definido por esta rede. 

(b) Suponha que o neurônio de saida do grafo de fluxo de sinal da Fig. P1.13 opere na sua 
região linear. Escreva o mapeamento de entrada-saida definido por esta nova rede. 

A rede descrita na Fig. P1.13 não tem bias. Suponha que bias iguais a -1 е +1 sejam 

aplicados aos neurônios superior e inferior da primeira camada oculta, е bias iguais a +1 e 

-2 sejam aplicados aos neurônios superior e inferior da segunda camada oculta, respecti- 

vamente, Escreva a nova forma do mapeamento de entrada-saida definido pela rede. 

Considere uma rede de múltiplas camadas alimentada adiante, na qual todos os neurônios 

operam nas suas regiões lineares. Justifique a afirmação de que esta rede é equivalente a 

uma rede alimentada adiante de camada única. 

Construa uma rede totalmente recorrente com 5 neurônios, mas sem auto-realimentação. 

A Figura P1,17 mostra um grafo de fluxo de sinal de uma rede recorrente constituida de 

dois neurônios. Escreva a equação de diferenças não-lincar que define a evolução de x (n) 
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FIGURA P1.13 


na 





FIGURA P1.17 


ou de x (m). Estas duas variáveis definem as saidas dos neurônios superior e inferior, res- 
pectivamente, Qual é a ordem desta equação? 

1.18 A Figura P1.18 mostra o grafo de fluxo de sinal de uma rede recorrente que consiste de 
dois neurônios com auto-realimentação. Escreva o sistema acoplado de duas equações de 
diferenças de primeira ordem que descrevem a operação do sistema. 





FIGURA P1.18 


1.19 Uma rede recorrente tem 3 nós de fonte, 2 neurónios ocultos e 4 neurônios de saida. 
Construa um grafo arquitetural que descreva esta rede. 
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Representação do conhecimento 


1,20 


1.21 


Uma forma útil de pré-processamento se baseia no modelo auto-regressivo (AR) descrito 
pela equação de diferenças (para dados de valores reais) 


yin) tw, {п = 1) tín, ya = 2) + + +10, y(n — M) * щл) 


onde v(n) é a saida do modelo; v(n) é uma amostra retirada de um processo de ruido branco 

com média zero e uma variância predefinida; we. 1e ..., Wp são os coeficientes do modelo 

АК, е M é а ordem do modelo. Mostre que o uso deste modelo fornece duas formas de 

invariáncia geométrica: (a) em escala e (b) em translação temporal. Como estas duas 

invariáncias poderiam ser utilizadas em redes neurais? 

Considere que x seja um vetor de entrada e que s(ot, x) seja um operador de transformação 

agindo sobre x e dependente de um parámetro à. O operador 50, x) satisfaz dois requisi- 

Los: 

+. s(ÜU,x)— x 

* sim, X) é diferenciável em relação a ct. 

O vetor tangente é definido pela derivada parcial de(re, x voe (Simard et al., 1992). 
Suponha que x represente uma imagem e que o seja um parâmetro de rotação. Como 

você calcularia o vetor tangente para o caso em que m é pequeno? O vetor tangente é 

localmente invariante em relação à rotação da imagem original; por quê? 


CAPITULO 2 


Processos de Aprendizagem 


24 INTRODUÇÃO 


A propriedade que é de importância primordial para uma rede neural é a sua habilidade de aprender 
a partir de seu ambiente e de melhorar o seu desempenho através da aprendizagem. A melhoria do 
desempenho ocorre com o tempo de acordo com alguma medida preestabelecida. Uma rede neural 
aprende acerca do seu ambiente através de um processo interativo de ajustes aplicados a seus pesos 
sinápticos e niveis de bias. Idealmente, a rede se torna mais instruída sobre o seu ambiente após 
cada iteração do processo de aprendizagem. 

Há atividades demais associadas à noção de “aprendizagem” para justificar a sua definição de 
forma precisa. Além disso, o processo de aprendizagem depende do ponto de vista, O que causa 
dificuldades em se obter um consenso sobre uma definição precisa do termo. A aprendizagem do 
ponto de vista de um psicólogo, por exemplo, é bastante diferente da aprendizagem em um sentido 
de sala de aula. Reconhecendo que o nosso interesse particular se concentra nas redes neurais, 
utilizamos uma definição de aprendizagem que с adaptada de Mendel e McClaren (1970), 

Definimos aprendizagem no contexto de redes neurais como: 


Aprendizagem é um processo pelo qual as parámetros livres de uma rede neural são adaptados 
através de um processo de estimulapdo pelo ambiente no qual a rede está inserida. O tipo de 
aprendizagem é determinado pela maneira pela qual a modificação dos parâmetros ocorre. 


Esta definição do processo de aprendizagem implica a seguinte seqüéncia de eventos: 


1. A rede neural é estimulada por um ambiente. 

2. A rede neural sofre modificações nos seus parâmetros livres como resultado desta estimulação. 

3. A rede neural responde de uma maneira nova ao ambiente, devido às modificações ocorridas na 
sua estrutura interna. 
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Um conjunto preestabelecido de regras bem-definidas para a solução de um problema de apren- 
dizagem é denominado um algoritmo de aprendizagem. Como se pode esperar, não há um algoritmo 
de aprendizagem único para o projeto de redes neurais. Em vez disso, temos um “conjunto de 
ferramentas” representado por uma variedade de algoritmos de aprendizagem, cada qual oferecen- 
do vantagens especificas. Basicamente, os algoritmos de aprendizagem diferem entre st pela forma 
como é formulado o ajuste de um peso sináptico de um neurônio. Um outro fator a ser considerado 
é a maneira pela qual uma rede neural (máquina de aprendizagem), constituida de um conjunto de 
neurônios interligados, se relaciona com o seu ambiente. Neste último contexto, falamos de um 
paradigma de aprendizagem que se refere a um modelo do ambiente no qual a rede neural opera. 


Organização do Capítulo 


O capítulo está organizado em quatro partes inter-relacionadas. Na primeira parte, que consiste das 
Seções 2.2 a 2.6, discutimos cinco regras básicas de aprendizagem: aprendizagem por correção de 
erro, aprendizagem baseada em memória, aprendizagem hebbiana, aprendizagem competitiva e 
aprendizagem de Boltzmann. A aprendizagem por correção de erro está fundamentada na filtragem 
ótima. À aprendizagem bascada em memória opera memorizando explicitamente os dados de trei- 
namento. Tanto a aprendizagem hebbiana como a aprendizagem competitiva são inspiradas em 
considerações neurobiológicas. A aprendizagem de Boltzmann é diferente porque é baseada em 
idéias tomadas emprestadas da mecânica estatistica. 

A segunda parte do capítulo explora os paradigmas de aprendizagem. À Seção 2.7 discute o 
problema de atribuição de crédito, que é básico para o processo de aprendizagem. As Seções 2.8 с 
2.9 apresentam um resumo de dois paradigmas de aprendizagem: (1) a aprendizagem com um pro- 
fessor e (2) a aprendizagem sem um professor. 

A terceira parte do capítulo, que consiste das Seções 2. 10 a 2.12, examina as questões relativas 
às tarefas de aprendizagem, memoria е adaptação. 

A parte final do capitulo, que consiste das Seções 2.13 a 2.15, trata dos aspectos probabilisticos 
e estatísticos do processo de aprendizagem. A Seção 2.13 discute o dilema bias/variância. A seção 
2.14 discute a (сопа estatistica da aprendizagem, baseada na noção da dimensão V-C que fornece 
uma medida da capacidade da máquina. A Seção 2.14 introduz um outro conceito importante: a 
aprendizagem provavelmente aproximadamente correta (PAC), que fornece um modelo conservativo 
para o processo de aprendizagem. 

O capítulo é concluido com algumas considerações finais na Seção 2.16. 


2.2 APRENDIZAGEM POR CORREÇÃO DE ERRO 


Para ilustrar nossa primeira regra de aprendizagem, considere o caso simples de um neurônio k que 
constitui o único nó computacional da camada de saida de uma rede neural alimentada adiante, 
como representado na Fig. 2.1a. O neurônio k é acionado por um vetor de sinal x(n) produzido por 
uma ou mais camadas de neurônios ocultos, que são, por sua vez, acionadas por um vetor de entrada 
(estimulo) aplicado aos nós de fonte (i.e, a camada de entrada) da rede neural. O argumento n 
representa o instante de tempo discreto, ou mais precisamente, o passo de tempo de um processo 
iterativo envolvido no ajuste dos pesos sinápticos do neurônio £. O simal de saida do neurônio k é 
representado por y (т). Este sinal de saida, representando a única saída da rede neural, é comparado 
com uma resposta desejado ou saida-alvo, representada por d (1). Conseqüentemente, é produzido 
um sinal de erro, representado por en). Por definição, temos assim 
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FIGURA 2.1 Ilustração da aprendizagem por corregáo de erro 


ednj= din) — vn) (2.1) 


O sinal de erro e, (n) aciona um mecanismo de controle, cujo propósito é aplicar uma sequência de 
ajustes corretivos aos pesos sinápticos do neurônio £. Os ajustes corretivos são projetados para 
aproximar passo a passo o sinal de saida y (т) da resposta desejada d (vn). Este objetivo é alcançado 
minimizando-se uma função de custo ou indice de desempenho, Ein), definido em termos do sinal 
de erro e (n) como: 


Ea) = zel (2.2) 


Com isso, Ein) é o valor instantáneo da energia do erro. Os ajustes passo a passo dos pesos sinápticos 
do neurônio k continuam até o sistema atingir um estado estavel (1.e., os pesos sinápticos estão 
essencialmente estabilizados). Neste ponto, o processo é encerrado. 

O processo de aprendizagem descrito aqui é denominado, por razões óbvias, aprendizagem 
por correção de erro. Em particular, a minimização da função de custo (n) resulta na regra de 
aprendizagem normalmente referida como regra delta ou regra de Widrow-Hoff, assim denominada 
em homenagem aos seus criadores (Widrow e Hoff, 1960), Suponha que 10, (n) represente o valor 
do peso sináptico з, do neurônio k excitado por um elemento x (n) do vetor de sinal x(n) no passo 
de tempo n. De acordo com a regra delta, o ajuste Aw, (n) aplicado ao peso sináptico w, no passo 
de tempo n é definido por 


Aw (n) = re (n)x(n) (2.3) 
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onde y é uma constante positiva que determina a taxa de aprendizado quando avançamos em um 
passo no processo de aprendizagem. É, portanto, natural que denominemos Y parámetro taxa de 
aprendizado. Em outras palavras, a regra delta pode ser formulada como: 


O ajuste feito em um peso sináptico de um neurónio é proporcional ao produto do sinal de erro pelo 
sinal de entrada da sinapse em questão, 


Note-se que a regra delta, assim formulada, pressupõe que o sinal de erro seja diretamente mensurável, 
Para que esta medida seja realizável, necessitamos claramente que a resposta desejada seja fornecida 
por alguma fonte externa, que seja diretamente acessivel ao neurônio É, Em outras palavras, o neurônio 
ké visivel ao mundo externo, como representado па Fig. 2 la, Desta figura também observamos que 
a aprendizagem por correção de erro é na verdade de natureza focal. Isto apenas significa que os 
ajustes sinäpticos feitos pela regra delta são localizados em torno do neurônio А. 

Tendo calculado o ajuste sináptico Aw, (n), o valor atualizado do peso sináptico ш, é determi- 
nado por 


w ín + 1)= w (п) + Aw, (п) (2.4) 


Na verdade, t. (n) € 10, (п + 1) podem ser vistos como os valores antigo e novo do peso sináptico 
We respectivamente. Em termos computacionais, podemos também escrever 
ion) = z "wn + 1) (2.5) 


onde z^ é o operador atraso unitário. Isto €, 7" representa um elemento de armazenamento. 

A Figura 2.1h mostra uma representação em grafo de fluxo de sinal do processo de aprendiza- 
gem por correção de erro, enfocando a atividade na vizinhança do neurónio &. O sinal de entrada x 
e o campo local induzido v, do neurônio k são referidos respectivamente como os sinais pré-sinaptico 
e püs-sindptico da j-ésima sinapse do neurônio É, respectivamente. Da Fig. 2.1 vemos que a apren- 
dizagem por correção de erro é um exemplo de um sistema realimentado de lago fechado. Da teoria 
de controle sabemos que a estabilidade de um sistema como esse é determinada pelos parâmetros 
que constituem os laços de realimentação do sistema. No nosso caso temos apenas um laço de 
realimentação, e um desses parâmetros, que é particularmente interessante, é o parâmetro taxa de 
aprendizado rj. Por esse motivo, é importante que Y seja selecionado cuidadosamente, para assegu- 
rar que seja alcançada a estabilidade ou convergência do processo de aprendizagem iterativo. A 
escolha de т tem também uma influência profunda na precisão e em outros aspectos do processo de 
aprendizagem. Em resumo, o parâmetro taxa de aprendizado т] desempenha na prática um papel- 
chave, determinando o desempenho da aprendizagem por correção de erro. 

A aprendizagem por correção de erro é discutida com muito mais detalhes no Capitulo 3, que 
trata das redes alimentadas adiante de camada única, e no Capítulo 4, que detalha as redes alimen- 
tadas adiante com múltiplas camadas. 


2.3 APRENDIZAGEM BASEADA EM MEMÓRIA 


Na aprendizagem baseada em memória, todas as (ou a maioria das) experiências passadas são 
armazenadas explicitamente em uma grande memória de exemplos de entrada-saida classificados 
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corretamente: l(x, d la ‚onde x representa um vetor de entrada e d, representa a resposta desejada 
correspondente. Sem perda de generalidade, restringimos a resposta desejada a ser um escalar, Em 
um problema de classificação de padrões binário, por exemplo, hà duas classes hipóteses a serem 
consideradas, representadas por €, e €... Neste exemplo, a resposta desejada d assume o valor O (ou 
=l} para a classe 6, e o valor 1 paraa classe €... Quando desejamos classificar um vetor de teste E 
(nào visto antes), o algoritmo responde buscando e analisando os dados de treinamento em uma 
“vizinhança local” de x . 

Todos os algoritmos de aprendizagem bascada em memória envolvem dois ingredientes es- 
sencials: 


* Ocritério utilizado para definir a vizinhança local do vetor de teste x, 
* A regra de aprendizagem aplicada aos exemplos de treinamento na vizinhança local дех, 


Os algoritmos diferem entre si na forma como estes dois ingredientes são definidos. 

Em um tipo simples mas efetivo de aprendizagem bascada em memória conhecido como a 
regra do vizinho mais próximo”, a vizinhança local é definida como o exemplo de treinamento que 
se encontra na vizinhança imediata do vetor de teste x. Em particular, dizemos que o vetor 


(2.6) 


é o vizinho mais próximo de x _ se 


Imie 


mm MM X al = ANa x (2.7) 


п zd 


onde d(x, x . ) a distància euclidiana entre os vetores хех. А classe associada com a distância 
minima, ou seja, o vetor x, é apresentada como а classificação de X... Esta regra é independente da 
distribuição fundamental responsáv el pela geração dos exemplos de treinamento. 

Cover e Hart (1967) estudaram formalmente a regra do vizinho mais próximo como uma 
ferramenta para classificação de padrões. А análise apresentada por eles é baseada em duas suposi- 
ções: 


* Os exemplos classificados (x. d) são independentemente e identicamente distribuidos (iid), 
de acordo com a distribuição de probabilidade conjunta do exemplo (x, d). 
* O tamanho da amostra N é infinitamente grande, 


Levando em consideração estas duas suposições, mostra-se que a probabilidade de erro de classifi- 
cação pela regra do vizinho mais próximo é limitada acima pelo dobro da probabilidade de erro 
bayesiana, isto é, a minima probabilidade de erro entre todas as regras de decisão. A probabilidade 
de erro bayesiana é discutida no Capitulo 3. Neste sentido, pode-se dizer que metade da informação 
sobre a classificação de um conjunto de treinamento de tamanho infinito está contida no vizinho 
mais próximo, o que é um resultado surpreendente. 

Uma variante do classificador pelo vizinho mais próximo é o classificador pelos k vizinhos 
mais próximos, que procede como segue: 


* Identifique os & padrões classificados que se encontram mais próximos do vetor de teste x, 
para um número inteiro X. 
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* Atribua x | à classe (hipótese) que está mais freqüentemente representada nos & vizinhos 
mais próximos de x, (Le., use uma votação majoritária para fazer а classificação). 


Assim, o classificador pelos & vizinhos mais próximos atua como um dispositivo que calcula a 
média. Em particular, ele discrimina um dado estranho, como ilustrado na Fig. 2.2 para k = 3. Um 
dado estranho é uma observação que tem um valor improvável em relação a um modelo de interes- 
ze. 

No Capítulo 5, discutimos um outro tipo importante de classificador baseado em memória, 
conhecido como rede de função de base radial. 


0 0 
0 FIGURA 2.2 А área contida no interior 
0 6 0 do circula tracejado inclui dois pontos 
AS М 0 pertencentes à classe 1 e um ponto 
i 1 l| о q estranho pertenconte à classe 0. О 

Esk; 90 г d ponto d corresponda ao vetar de teste 
[== Kr, Com k= 3, o classilicador pelos К 
1401,11 vizinhos mais próximos alribui a classe 
i 1 ao ponto d, mesmo ele estando mais 

1 próximo ao dado estranho 


2.4 APRENDIZAGEM HEBBIANA 


O postulado de aprendizado de Hebb é a mais antiga e mais famosa de todas as regras de aprendi- 
zagem; ele é assim denominado em homenagem ao neuropsicólogo Hebb (1949). Citando o livro de 
Hebb (1949, n.62), The Organization of Behavior: 


Quando um axónio da célula A está perto o suficiente para excitar uma célula B e participa do seu 
disparo repetida ou persistentemente, então algum processo de crescimento ou modificação meta- 
bólica acontece em uma das células ou em ambas, de tal forma que a eficiência de A como uma das 
células que dispara B é aumentada. 


Hebb propós esta modificação como uma base da aprendizagem associativa (a nivel celular), que 
resultaria em uma modificação permanente do padrão de atividade de um “agrupamento de células 
nervosas” espacialmente distribuido, 

Esta afirmação foi feita em um contexto neurobiológico. Podemos expandir e rescrevé-la como 
uma regra em duas partes (Stent, 1973; Changeux e Danchin, 1976): 


1. Se dois neurônios em ambos os lados de uma sinapse (conexdo) são ativados simultaneamente 
fe, sincronamente), então a força daquela sinapse é seletivamente aumentada. 

2. Se dois neurônios em ambos os lados de uma sinapse são ativados assincronamente, então 
aquela sinapse é seletivamente enfraquecida ou eliminada. 


Uma sinapse assim é denominada uma sinapse hebbiana. (A regra de Hebb original não contém a 
parte 2). Mais precisamente, definimos uma sinapse hebbiana como uma sinapse que usa um meca- 
nismo dependente do tempo, altamente local e fortemente interativo para aumentar a eficiência 
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sináptica como uma função da correlação entre as atividades pre-sináptica e pos-sináptica. А 
partir desta definição podemos deduzir os seguintes quatro mecanismos (propriedades) fundamen- 
tais que caracterizam uma sinapse hebbiana (Brown et al., 1990): 


l. Mecanismo dependente do tempo. Este mecanismo se refere ao fato de que as modificações 
em uma sinapse hebbiana dependem do tempo exato de ocorrência dos sinais pré-sinápticos e pós- 
sinápticos. 

2. Mecanismo Local. Pela sua natureza, uma sinapse é um local de transmissão onde sinais por- 
tadores de informação (representando a atividade incidente nas unidades pré-sináptica e pós-sináptica) 
estão em contigüidade espaço-temporal. Esta informação localmente disponivel é utilizada por 
uma sinapse hebbiana para produzir uma modificação sináptica local que é específica para a entra- 
da. 

3, Mecanismo interativo. A ocorréncia de uma modificação em uma sinapse hebbiana depende 
dos sinais em ambos os lados da sinapse. [sto é, uma forma de aprendizagem hebbiana depende de 
uma “interação verdadeira” entre os sinais pré-sináptico € pós-sináptico, no sentido de que não 
podemos fazer uma previsão a partir de apenas uma dessas duas atividades. Note também que esta 
dependência ou interação pode ser de natureza deterministica ou estatística. 

4. Mecanismo conjuncional ou correlativo. Uma interpretação do postulado de aprendizado de 
Hebb é que a condição para uma modificação da efis:ência sináptica é a conjunção dos sinais pré- 
sináptico e pós-sináptico. Assim, de acordo com esta interpretação, a ocorrência simultánea dos 
sinais pré-sináptico e pós-sináptico (dentro de um curto intervalo de tempo) é suficiente para produ- 
zir a modificação sináptica. É por esta razão que uma sinapse hebbiana é algumas vezes denomina- 
da sinapse conjuncional. Para uma outra Interpretação do postulado de aprendizado de Hebb, pode- 
mos considerar o mecanismo interativo que caracteriza uma sinapse hebbiana em termos estatisti- 
cos. Em particular, a correlação temporal entre os sinais pré-sináptico e pós-sináptico é vista como 
sendo responsável por uma modificação sináptica. Neste sentido, uma sinapse hebbiana é também 
denominada uma sinapse correlativa. A correlação é de fato a base do aprendizado (Eggermont, 
1990). 


Reforço e Depressão Sinápticos 


A definição de uma sinapse hebbiana apresentada aqui não inclui processos adicionais que podem 
resultar no enfraquecimento de uma sinapse conectando um par de neurônios. De fato, podemos 
generalizar o conceito de uma modificação hebbiana reconhecendo que uma atividade positivamen- 
te correlacionada produz reforço sináptico e que uma atividade náo-correlacionada ou negativa- 
mente correlacionada produz enfraquecimento sináptico (Stent, 1973). À depressão sináptica pode 
ser também do tipo não-interativo. Especificamente, a condição interativa para o enfraquecimento 
sináptico pode ser simplesmente a atividade não-coincidente pré-sináptica ou pós-sináptica. 
Podemos seguir um passo à frente, classificando uma modificação sináptica como hebbiana, 
anti-hebbiana e náo-hebbiana (Palm, 1982). De acordo com este esquema, uma sinapse hebbiana 
aumenta sua força com sinais pré-sináptico e pós-sináptico positivamente correlacionados e dimi- 
nui a sua força quando estes sinais não são correlacionados ou são negativamente correlacionados. 
Inversamente, uma sinapse anti-hebbiana enfraquece sinais pré-sináptico e pós-sináptico positiva- 
mente correlacionados e reforça sinais negativamente correlacionados. Tanto em uma sinapse 
hebbiana como em uma sinapse anti-hebbiana, entretanto, a modificação da eficiência sináptica se 
baseia em um mecanismo que é dependente do tempo, altamente local e de natureza fortemente 
interativa. Neste sentido, uma sinapse anti-hebbiana é ainda de natureza hebbiana, apesar de não o 
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ser funcionalmente, Uma sinapse não-hebbiana, por outro lado, não envolve qualquer tipo de meca- 
nismo hebbiano. 


Modelos Matemáticos de Modificações Hebbianas 


Para formular a aprendizagem hebbiana em termos matemáticos, considere um peso sináptico w, 
do neurônio É com sinais pré-sináptico e pós-sináptico representados por rey. respectivamente, O 
ajuste aplicado ao peso smáptico w, no passo de tempo л é expresso na forma geral 


Aut (n) = Fi dm), x (07) (2.8) 


onde Fl.) é uma função tanto do smal pré-sináptico como do pós-smáptico. Os sinais xn) e vin) 
são frequentemente tratados como adimensionais. À fórmula da Eq. (2.8) admite muitas formas, 
sendo que todas são qualificadas como hebbianas. A seguir, consideramos duas destas formas, 


Hipótese de Hebb. А forma mais simples de aprendizagem hebbiana é descrita por 
Aw, (ту = Ty, Ur on (2.9) 


onde т é uma constante positiva que determina a taxa de aprendizagem. À Equação (2.9) claramen- 
te enfatiza a natureza correlativa de uma sinapse hebbiana. Ela é algumas vezes referida como a 
regra do produto das atividades. A curva superior da Fig. 2.3 mostra uma representação gráfica da 
Eq. (2.9), com a modificação Aw, traçada em função do sinal de saida (atividade pós-sináptica) y,. 
Desta representação, vemos que a aplicação repetida do sinal de entrada (atividade pré-sináptica) x, 
resulta em um aumento de y, e, portanto, em um crescimento exponencial que ao final leva a cone- 
хао sináptica à saturação. Naquele ponto nenhuma informação será armazenada na sinapse e a 
seletividade é perdida. 
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FIGURA 2.3 Ilustração 
da hipótese de Hebb e da 
hipótese da covariáncia 


Hipótese da covariância. Uma forma de superar a limitação da hipótese de Hebb é através da 
utilização da hipótese da covariáncia introduzida por Sejnowski (1977a, b). Nesta hipótese, os 
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sinais pré-sináptico e pós-sináptico na Eq. (2.9) são substituídos pelo desvios dos sinais pré-sináptico 
e pós-sináptico em relação aos seus respectivos valores médios em um certo intervalo de tempo. 
Considere que X e Y representem os valores medios no tempo dos sinais pré-sináptico x,e pös- 
sináptico y respectivamente. De acordo com а hipótese da covariáncia, o ajuste aplicado ao peso 


sináptico 10, é definido por 
Aw, (n) = іх х) У) (2.10) 


onde n ё o parámetro taxa de aprendizado. Os valores médios x е у constituem os limiares pré- 
sináptico e pós-sináptico, que determinam o sinal da modificação sináptica. Em particular, a hipöte- 
se da covariância permite o seguinte: 
* À convergência para um estado não-trivial, que é alcançado quando x, = X ou у = y. 
e А previsão da potenciação sináptica (1.e., aumento da força sináptica) e a depressão sináptica 
(i.e., diminuição da força sináptica). 


A Figura 2.3 ilustra a diferença entre a hipótese hebbiana e a hipótese da covariância. Em ambos os 
casos, Aw, depende linearmente de y,; entretanto, o cruzamento com o eixo de y, na hipótese de 
Hebb ocorre na origem, enquanto que na hipótese da covariância ele ocorre em y, = y. 

Podemos fazer as seguintes observações importantes sobre a Eq. (2.10): 


1. O peso sináptico w, é reforçado se houver niveis suficientes de atividades pré-sináptica e pós- 
sináptica, ou seja, se ambas as condições x > x e y, Y forem satisfeitas. 
2. O peso sináptico é deprimido se ocorrer uma das seguintes situações: 
* uma ativação pré-sináptica (1.e., х,> x ) na ausência de ativação pós-sináptica suficiente (Le., 
y, < У ) ou 
e uma ativação pós-sináptica (1.e., y, > Ӯ ) na ausência de ativação pré-sináptica suficiente (i.e., 
X < Xx) 


Este comportamento pode ser visto como uma forma de competição temporal entre os padrões 
incidentes, 

Há uma forte evidência fisiológica" para a aprendizagem hebbiana na área do cérebro chama- 
da hipocampo. O hipocampo desempenha um papel importante em certos aspectos de aprendiza- 
gem e memória. Esta evidência fisiológica torna a aprendizagem hebbiana bastante atrativa. 


2.5 APRENDIZAGEM COMPETITIVA 


Na aprendizagem competitiva.” como o nome implica, os neurônios de saida de uma rede neural 
competem entre si para se tomar ativos (disparar). Enquanto que em uma rede neural baseada na 
aprendizagem hebbiana, vários neurónios de saida podem estar ativos simultaneamente, na aprendiza- 
gem competitiva somente um ünico neurónio de saida està ativo em um determinado instante. É essa 
caracteristica que torna a aprendizagem competitiva muito adequada para descobrir caracteristicas 
estatisticamente salientes que podem ser utilizadas para classificar um conjunto de padrões de entrada. 

Existem trés elementos básicos em uma regra de aprendizagem competitiva (Rumelhart e 
Zisper, 1985): 
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* Um conjunto de neurônios que são todos iguais entre si, exceto por alguns pesos sinápticos 
distribuidos aleatoriamente, e que por isso respondem diferentemente a um dado conjunto de 
padrões de entrada. 

e Um limite imposto sobre a “força” de cada neurônio. 

Um mecanismo que permite que o neurônio compita pelo direito de responder a um dado 
subconjunto de entradas, de forma que somente um neurônio de saida, ou somente um neurônio 
por grupo, esteja ativo (1.e., "ligado") em um determinado instante, O neurônio que vence a 
competição é denominado um neuronio vencedor leva tudo. 


Correspondentemente, os neurônios individuais da rede aprendem a se especializar em agrupamen- 
tos de padrões similares; fazendo 1550, eles se tomam detectores de caracteristicas para classes 
diferentes de padrões de entrada. 

Na forma mais simples de aprendizagem competitiva, a rede neural tem uma única camada de 
neurônios de saída, estando cada neurônio totalmente conectado aos nós de entrada. A rede pode 
incluir conexões de realimentação entre os neurônios, como indicado na Fig. 2.4. Na arquitetura 
aqui descrita, as conexões de realimentação realizam inibição lateral,^ com cada neurônio tendendo 
a inibir o neurônio ao qual está lateralmente conectado. Por outro lado, as conexões sinápticas de 
alimentação adiante na rede da Fig. 2.4 são todas excitadoras. 


FIGURA 2.4 Gralo arquitetural de uma 
rede de aprendizagem competitiva simples 
com conaxóes de abmentação adiante 
(excitaderas) dos nós de fonte para os 





Comuda Camada única neurônios e conexões laterais (inibitórias) 
de nås de de neurônios entre os neurônios; as conexóes laterais 
fonte de salda são representadas por setas abertas 


Para um neurônio É ser o neurônio vencedor, seu campo local induzido +, para um padrão de 
entrada especificado x deve ser o maior entre todos os neurônios da rede. O sinal de saida y, do 
neurômo vencedor & é colocado em um; os sinais de saida de todos os neurônios que perdem a 
competição são colocados em zero. Com isso, podemos escrever 


| sev, v, para todos j, / € А 
T а (2.11) 
0 caso contrário à 


onde o campo local induzido v, representa a ação combinada de todas as entradas diretas e 
realimentadas do neurônio X. 


Considere que 1, represente o peso sináptico conectando o nó de entrada j ao neurônio k. 
Suponha que а cada neurônio seja alocada uma quantidade fixa de peso sináptico (ie, todos os 
pesos sinápticos são positivos), que é distribuída entre seus nós de entrada; ou seja, 


Yun, =] para todo £ (2.12) 
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Um neurónio, entào, aprende ao deslocar pesos sinápticos de seus nós de entrada inativos para os 
seus nås ativos. Se um neurônio não responde a um padrão de entrada particular, então não ocorrerá 
aprendizado naquele neurônio. Se um neurônio particular vencer a competição, então cada nå de 
entrada deste neurônio libera uma certa proporção de seu peso sináptico e este peso liberado será 
então distribuido uniformemente entre os nós de entrada ativos. De acordo com a regra de aprendi- 
zagem competitiva padrão, a variação Aw, aplicada ao peso sináptico w, é definida por 

Au, = ü —W,) seo neurônio k vencer a competição (2.13) 


0 sc o neurônio & perder a competição 


onde t] ё o parámetro taxa de aprendizagem. Esta regra tem o efeito global de mover o vetor de peso 
sináptico w, do neurônio vencedor k em direção ao padrão de entrada x. 

Podemos utilizar a analogia geométrica representada na Fig. 2.5 para ilustrar a essência da 
aprendizagem competitiva (Rumelhart e Zipser, 1985). Supomos que cada padrão (vetor) de entra- 
da x tem um determinado comprimento euclidiano constante, de forma que podemos vê-lo como 
um ponto em uma esfera unitária N-dimensional, onde N é o número de nós de entrada. N representa 
também a dimensão de cada vetor de peso sináptico w,. Supomos ainda que todos os neurônios da 
rede têm o mesmo comprimento euclidiano (norma), como mostrado por 


Y u, =| para todo k (2.14) 
4 


Quando os pesos sinápticos são escalados adequadamente, formam um conjunto de vetores que se 
encontram na mesma esfera unitária N-dimensional. Na Fig. 2.5a, mostramos três agrupamentos 
(clusters) naturais dos padrões de estimulo representados por pontos. Esta figura inclui também um 
estado inicial possível da rede (representado por cruzes) que pode existir antes do aprendizado. A 
Figura 2.5b mostra um estado final típico da rede que resulta da utilização de aprendizagem compe- 
titiva. Em particular, cada neurônio de saida descobriu um agrupamento de padrões de entrada 
movendo o seu vetor de peso sináptico para o centro de gravidade do agrupamento descoberto 





FIGURA 2.5 Interpretação geomètrica do processo de aprendizagem competitiva. 
Os pontos representam os vetores de entrada e as cruzes representam os vetores 
de pesos sinápticos de três neurônios de saída, (a) Estado inicial da rede. (b) Estado 
final da rede 
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(Rumelhart e Zipser, 1985; Hertz et al., 1991). Esta figura ilustra a habilidade de uma rede neural de 
realizar a tarefa de agrupamento (clustering) através de aprendizagem competitiva. Entretanto, para 
realizar esta função de uma maneira “estável”, os padrões de entrada devem se localizar em agrupa- 
mentos suficientemente distintos. Caso contrário, a rede pode ser instável porque não responderá 
mais a um determinado padrão de entrada com o mesmo neurônio de saida, 


2.6 APRENDIZAGEM DE BOLTZMANN 


A regra de aprendizagem de Boltzmann, assim chamada em homenagem a Ludwig Boltzmann, é 
um algoritmo de aprendizagem estocástico derivado de idéias enraizadas na mecânica estatística. 
Uma rede neural projetada com base na regra de aprendizagem de Boltzmann é denominada uma 
maquina de Boltzmann (Ackley et al., 1985; Hinton e Sejnowski, 1986). 

Em uma máquina de Boltzmann, os neurónios constituem uma estrutura recorrente e operam 
de uma maneira binária, uma vez que, por exemplo, eles estão ou em um estado “ligado” represen- 
tado por +1, ou em um estado “desligado” representado por —1. A máquina é caracterizada por uma 
função de energia, E, cujo valor é determinado pelos estados particulares ocupados pelos neurônios 
individuais da máquina, como mostrado por 


| 
E- zede ter, (2.15) 


fed 


onde x, é o estado do neurônio j e ш, é o peso sináptico conectando o neurônio j ao neurônio A. O 
fato de que г x k significa apenas que pe. um dos neurônios da máquina tem auto-realimentação. A 
máquina opera escolhendo um neurônio ao acaso — por exemplo, o neurônio k — em um determina- 
do passo do processo de aprendizagem, trocando então o estado do neurônio k do estado x, para o 
estado —x, a uma temperatura T com probabilidade 


| 


Р(х, PT АЕ IT) (2.16) 


onde AE, é a variação de energia (1.€., à variação da função de energia da máquina) resultante 
daquela troca. Note que 7 não é uma temperatura fisica, mas apenas uma pseudotemperatura, como 
explicado no Capítulo 1. Se esta regra for aplicada repetidamente, a máquina atingirá o equilibrio 
térmico. 

Os neurônios de uma máquina de Boltzmann se dividem em dois grupos funcionais: os visi- 
veis e os ocultos, Os neurônios visíveis fornecem uma interface entre a rede e o ambiente em que ela 


opera, enquanto que os neurônios ocultos sempre operam livremente, Hà dois modos de operação a 
serem considerados: 


+ Condição presa, na qual os neurônios visíveis estão todos presos a estados específicos deter- 
minados pelo ambiente. 

e Condição de operação livre, na qual todos os neurônios (visíveis e ocultos) podem operar 
livremente. 


Suponha que д; represente a correlação entre os estados dos neurônios j e É, com a rede na sua 
condição presa. Suponha que д, represente a correlação entre os estados dos neurônios j e k, com 
a rede na sua condição de operação livre. Ambas as correlações correspondem às médias sobre 
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todos os estados possíveis da máquina, quando ela está em equilibrio térmico. Então, de acordo com 
a regra de aprendizagem de Boltzmann, a variação Aw, aplicada ао peso sináptico ш, do neurônio 
j para o neurônio k é definida por (Hinton e Sejnowski, 1986) 


Аш, = MP, Py). ¿EL (2.17) 


onde 1 é o parámetro taxa de aprendizagem. Note que tanto p,, como (x, assumem valores no 


intervalo entre —1 e *1. 
Uma breve revisão da mecânica estatística é apresentada no Capítulo 11; naquele capitulo, 
apresentamos um tratamento detalhado da máquina de Boltzmann e de outras máquinas estocásticas. 


2.7 O PROBLEMA DE ATRIBUIÇÃO DE CRÉDITO 


Quando se estudam algoritmos de aprendizagem para sistemas distribuidos, é ütil se considerar a 
noção de atribuição de crédito (Minsky, 1961). Basicamente, o problema de atribuição de crédito é 
o problema de se atribuir credito ou culpa por resultados globais a cada uma das decisões internas 
que tenham sido tomadas por uma máquina de aprendizagem e que tenham contribuído para aque- 
les resultados. (O problema de atribuição de crédito é também denominado problema de carga, isto 
é, o problema de “carregar” um determinado conjunto de dados de treinamento para dentro dos 
parâmetros livres da rede.) 

Em muitos casos, a dependência dos resultados em relação a decisões internas é mediada por 
uma sequência de ações tomadas pela máquina de aprendizagem. Em outras palavras, as decisões 
internas afetam a escolha das ações particulares que são tomadas e, com 1550, ás ações e não as 
decisões internas influenciam diretamente os resultados globais. Nestas situações, podemos de- 
compor o problema de atribuição de crédito em dois subproblemas (Sutton, 1984): 


1. A atribuição de crédito por resultados a ações. Este é o chamado problema de atribuição de 
crédito temporal que envolve os instantes de tempo quando as ações que merecem crédito 
foram realmente tomadas. 

2. A atribuição de crédito por ações a decisões internas. Este é o chamado problema de atribuição 
de crédito estrutural que envolve atribuir crédito às estruturas internas das ações geradas pelo 
sistema. 


O problema de atribuição de crédito estrutural é relevante no contexto de uma máquina de aprendi- 
zagem com múltiplos componentes quando devemos determinar precisamente qual componente 
particular do sistema deve ter seu comportamento alterado e em que medida, de forma a melhorar o 
desempenho global do sistema. Por outro lado, o problema de atribuição de crédito temporal é 
relevante quando hà muitas ações tomadas por uma máquina de aprendizagem que acarretam certos 
resultados, e devemos determinar quais dessas ações foram responsáveis pelos resultados. O pro- 
blema combinado de atribuição de crédito temporal e estrutural é enfrentado por qualquer máquina 
de aprendizagem distribuída que se esforce em melhorar seu desempenho em situações envolvendo 
comportamento estendido no tempo (Williams, 1988). 

O problema de atribuição de crédito surge, por exemplo, quando a aprendizagem por correção 
de erro é aplicada em uma rede neural de múltiplas camadas alimentada adiante, А operação de 
cada neurônio oculto, bem como de cada neurônio de saida desta rede, é importante para a correta 
operação global da rede, em uma tarefa de aprendizagem de interesse. Ou seja, para resolver uma 
tarefa predeterminada, a rede deve atribuir certas formas de comportamento a todos os seus neurônios, 
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através da especificação da aprendizagem por correção de erro. Tendo em mente esta fundamenta- 
ção, considere a situação descrita na Fig. 2.1a. Como o neurônio de saída & é visível para o mundo 
extemo, é possivel fornecer uma resposta desejada para este neurônio, No que diz respeito ao neurônio 
de saida, pode-se ajustar diretamente os pesos sinápticos deste neurônio de acordo com a aprendiza- 
gem por correção de erro, como esboçado na Seção 2.2. Mas como devemos atribuir crédito ou 
culpa pela ação dos neurônios ocultos quando o processo de aprendizagem por correção de erro é 
utilizado para ajustar os respectivos pesos sinápticos desses neurônios? À resposta para esta questão 
fundamental requer atenção mais detalhada, ela é apresentada no Capítulo 4, onde são descritos os 
detalhes algoritmicos do projeto de redes neurais de múltiplas camadas alimentadas adiante. 


28 APRENDIZAGEM COM UM PROFESSOR 


Voltamos agora a nossa atenção para os paradigmas de aprendizagem. Começamos considerando à 
aprendizagem com um professor, que é também denominada aprendizagem supervisionada. A Fi- 
gura 2.6 mostra um diagrama em blocos que ilustra esta forma de aprendizagem. Em termos 
conceituais, podemos considerar o professor como tendo conhecimento sobre o ambiente, com este 
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FIGURA 2.8 Diagrama em blocos da 
Sinal de erro aprandizagem com um professor 


conhecimento sendo representado por um conjunto de exemplos de entrada-saida, Entretanto, o 
ambiente é desconhecido pela rede neural de interesse. Suponha agora que o professor e a rede 
neural sejam expostos a um vetor de treinamento (i.e, exemplo) retirado do ambiente. Em virtude 
de seu conhecimento prévio, o professor é capaz de fornecer à rede neural uma resposta desejada 
para aquele vetor de treinamento. Na verdade, a resposta desejada representa a ação ótima a ser 
realizada pela rede neural. Os parâmetros da rede são ajustados sob a influência combinada do vetor 
de treinamento е do sinal de erro. O sinal de erro é definido como а diferença entre a resposta 
desejada e a resposta real da rede. Este ajuste é realizado passo a passo, iterativamente, com o 
objetivo de fazer a rede neural emular o professor, supõe-se que a emulação seja ótima em um 
sentido estatístico. Desta forma, o conhecimento do ambiente disponivel ao professor é transferido 
para a rede neural através de treinamento, da forma mais completa possível. Quando esta condição 
é alcançada, podemos então dispensar o professor e deixar a rede neural lidar com o ambiente 
inteiramente por si mesma. 
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A forma de aprendizagem supervisionada que acabamos de descrever é a aprendizagem por 
correção de erro discutida na Seção 2.2. Ela é um sistema realimentado de laço fechado, mas o 
ambiente desconhecido não está no laço, Como uma medida de desempenho para o sistema, pode- 
mos pensar em termos do erro médio quadrado ou da soma de erros quadrados sobre a amostra de 
treinamento, definida como uma função dos parâmetros livres do sistema. Esta função pode ser 
visualizada como uma superficie multidimensional de desempenho de erro, ou simplesmente uma 
superficie de erro, com os parâmetros livres como coordenadas. À verdadeira superficie de erro é 
obtida pela média sobre todos os exemplos possíveis de entrada-saida. Qualquer operação do siste- 
ma sob supervisão do professor é representada como um ponto sobre a superficie de erro. Para que 
o sistema melhore o seu desempenho ao longo do tempo e portanto aprenda com o professor, o 
ponto de operação deve ser movido para baixo sucessrvamente em direção a um ponto mínimo da 
superficie de erro; o ponto minimo pode ser um minimo local ou um minimo global. Um sistema de 
aprendizagem supervisionada é capaz de fazer isto com a informação útil que ele tem sobre o 
gradiente da superficie de erro, correspondente ao comportamento corrente do sistema, O gradiente 
de uma superficie de erro em qualquer ponto é um vetor que aponta na direção da descida mais 
ingreme. Na verdade, no caso da aprendizagem supervisionada por exemplos, o sistema pode usar a 
estimativa instantünea do vetor gradiente, supondo que os indices dos exemplos sejam os mesmos 
dos instantes de tempo. O uso de tal estimativa resulta em um movimento do ponto de operação 
sobre a superficie de erro que se dá tipicamente na forma de uma “caminhada aleatória”. Apesar 
disso, dados um algoritmo projetado para minimizar a função de custo, um conjunto adeguado de 
exemplos de entrada-saida e tempo suficiente para realizar o treinamento, um sistema de aprendiza- 
gem supervisionada é normalmente capaz de realizar tarefas como classificação de padrões e apro- 
ximação de funções. 


2.9 APRENDIZAGEM SEM UM PROFESSOR 


Na aprendizagem supervisionada, o processo de aprendizagem acontece sob a tutela de um profes- 
sor. Entretanto, no paradigma conhecido como aprendizagem sem um professor, como o nome 
implica, não há um professor para supervisionar o processo de aprendizagem. Isto significa que não 
há exemplos rotulados da função a ser aprendida pela rede. Neste segundo paradigma, são 
identificadas duas subdivisões: 


1. Aprendizagem por reforço/Programação neurodinámica 


Na aprendizagem por reforço * o aprendizado de um mapeamento de entrada-saida é realizado 
através da interação continua com o ambiente, visando a minimizar um indice escalar de desempe- 
nho. A Figura 2.7 apresenta o diagrama em blocos de uma forma de sistema de aprendizagem por 
reforço construído em torno de um crítico que converte um sinal de reforço primário recebido do 
ambiente em um sinal de reforço de melhor qualidade, denominado sinal de reforço heurístico, 
sendo ambos entradas escalares (Barto et al, 1983). O sistema é projetado para aprender por reforço 
atrasado, o que significa que o sistema observa uma sequência temporal de estimulos (i.e., vetores 
de estado) também recebidos do ambiente, que eventualmente resultam na geração do sinal de 
reforço heuristico. O objetivo da aprendizagem é minimizar uma função de custo para avançar, 
definida como a expectativa do custo cumulativo de ações tomadas ao longo de uma sequência de 
passos, em vez simplesmente do custo imediato. Pode acontecer que certas ações tomadas anterior- 
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mente naquela sequência de passos de tempo sejam de fato os melhores determinantes do compor- 
tamento global do sistema. A função da maquina de aprendizagem, que constitui o Segundo compo- 
nente do sistema, é descobrir estas ações e realimentá-las para o ambiente. 

A aprendizagem por reforço atrasado é dificil de ser realizada por duas razões básicas: 


+ Não existe um professor para fornecer uma resposta desejada em cada passo do processo de 
aprendizagem. 

+ O atraso incorrido na geração do sinal de reforço primário implica que a máquina de aprendi- 
zagem deve resolver um problema de atribuição de crédito temporal, Com isso, queremos 
dizer que à máquina de aprendizagem deve ser capaz de atribuir crédito ou culpa individual- 
mente a cada ação na sequência de passos de tempo que levam ao resultado final, enquanto 
que o reforço primário é capaz apenas de avaliar o resultado, 


Apesar destas dificuldades, à aprendizagem por reforço atrasado é muito atraente. Ela fornece a 
base para o sistema interagir com o seu ambiente, desenvolvendo com isso a habilidade de aprender 
a realizar uma tarefa predeterminada com base apenas nos resultados de sua experiência, que resul- 
tam da interação. 

A aprendizagem por reforço está intimamente relacionada com a programação dinâmica, que 
foi desenvolvida por Bellman (1957) no contexto da teoria de controle ótimo, A programação dind- 
mica fornece o formalismo matemático para a tomada de decisão seqüencial. Enquadrando a apren- 
dizagem por reforço dentro da abordagem da programação dinâmica, o assunto se torna bastante 
rico, como demonstrado em Bertsekas e Tsitsiklis (1996). Um tratamento introdutório sobre pro- 


gramação dinâmica e sua relação com a aprendizagem por reforço é apresentado no Capitulo 12. 


2. Aprendizagem não-supervisionada 


Na aprendizagem náo-supervisionada ou auto-organizade, não há um professor externo ou um 
critico para supervisionar o processo de aprendizado, como indicado na Fig. 2.8. Em vez disso, são 
dadas condições para realizar uma medida independente da tarefa da qualidade da representação 
que a rede deve aprender, e os parâmetros livre da rede são otimizados em relação a esta medida. 
Uma vez que a rede tenha se ajustado às regularidades estatísticas dos dados de entrada, ela desen- 
volve a habilidade de formar representações internas para codificar as caracteristicas da entrada e, 
desse modo, de criar automaticamente novas classes (Becker, 1991). 
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Para realizarmos a aprendizagem náo-supervisionada, podemos utilizar a regra de aprendiza- 
gem competitiva. Podemos utilizar, por exemplo, uma rede neural de duas camadas — uma camada 
de entrada e uma camada competitiva. A camada de entrada recebe os dados disponíveis. A camada 
competitiva consiste de neurônios que competem entre si (de acordo com uma regra de aprendiza- 
gem) pela “oportunidade” de responder às caracteristicas contidas nos dados de entrada, Na sua 
forma mais simples, a rede opera de acordo com uma estratégia do tipo "o vencedor leva tudo". 
Como descrito na Seção 2.5, nesta estratégia o neurônio com a maior entrada total “ganha” a com- 
petição e se torna ligado; todos os outros neurônios, então, se tomam desligados. 

Nos Capitulos de 8 a 11, são descritos diferentes algoritmos para aprendizagem não-supervisio- 
nada, 


2.10 TAREFAS DE APRENDIZAGEM 


Nas seções anteriores deste capitulo, discutimos diferentes algoritmos de aprendizagem e paradigmas 
de aprendizagem. Nesta seção, descrevemos algumas tarefas básicas de aprendizagem, À escolha 
de um algoritmo de aprendizagem particular é influenciada pela tarefa de aprendizagem que uma 
rede neural deve executar. Neste contexto, identificamos seis tarefas de aprendizagem que se apli- 
cam ao uso de redes neurais de uma forma ou de outra. 


Associação de Padrões 


Uma memória associativa é uma memória distribuida inspirada no cérebro, que aprende por asso- 
ciação. Desde Aristóteles, sabe-se que a associação é uma caracteristica proeminente da memória 
humana, € todos os modelos de cognição utilizam associação de uma forma ou de outra como а 
operação básica (Anderson, 1995). 

A associação assume uma de duas formas: auto-associapáo ou heteroassociacdo. Na awto- 
associação, uma rede neural deve armazenar um conjunto de padrões (vetores), que são apresenta- 
dos repetidamente à rede. Subseqüentemente, apresenta-se à rede uma descrição parcial ou distorcida 
(ruidosa) de um padrão original armazenado e à tarefa é recuperar (recordar) aquele padrão parti- 
cular, A heteroassociação difere da auto-associação pelo fato de um conjunto arbitrário de padrões 
de entrada ser associado а um ошто conjunto arbitrário de padrões de saida. À auto-associação 
envolve o uso de aprendizagem não-supervisionada, enquanto que, na heteroassociação, a aprendi- 
zagem é supervisionada, 

Considere que x, represente um podrdo-chave (vetor) aplicado a uma memória associativa e y, 
represente um padrão memorizado (vetor). A associação de padrões realizada pela rede é descrita 
por 


х, >, k=1.2..q (2.18) 
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onde q é o número de padrões armazenados na rede, O padrão-chave x, age como um estimulo que 
não apenas determina a localização de armazenamento do padrão memorizado y,, mas também é a 
chave para sua recuperação. 

Em uma memória auto-associativa, y, = X, e assim os espaços (de dados) de entrada e de saida 
da rede têm a mesma dimensionalidade. Em uma memória heteroassociativa, y, = x,; portanto, a 
dimensionalidade do espaço de saída neste segundo caso pode ou não ser igual à dimensionalidade 
do espaço de entrada. 


Hà duas fases envolvidas na operação de uma memória associativa; 
e A fase de armazenamento, que se refere ao treinamento da rede de acordo com a Eq. (2.18). 
* À fase de recordação, que envolve a recuperação de um padrão memorizado em resposta à 
apresentação à rede de uma versão ruidosa ou distorcida de um padrão-chave. 


Suponha que o estimulo (entrada) x represente uma versão ruidosa ou distorcida de um padräo- 
chave x Este estimulo produz uma resposta (saida) y, como indicado na Fig. 2.9. Para a recordação 
perfeita, nós deveriamos obter y = y, onde y, é o padrão memorizado associado ao padrão-chave x, 
Quando y + y. para x = X. diz-se que a memória associativa fez um erro de recordação. 


Мег de Associador Vitor de 
entrada A de padråes С> saida FIGURA 2.9 A relação de entrada-saida 
X Y de um associador de padrões 


O número q de padrões armazenados em uma memória associativa fornece uma medida direta 
da capacidade de armazenamento da rede, No projeto de uma memória associativa, o desafio É 
tornar a capacidade de armazenamento q (expressa como uma porcentagem do número total N de 
neurônios utilizados para construir a rede) tão grande quanto possivel e ainda assim conseguir que 
uma grande fração dos padrões memorizados sejam recordados corretamente. 


Reconhecimento de Padrões 


Os seres humanos são bons no reconhecimento de padrões. Recebemos dados do mundo à nossa 
volta através dos nossos sentidos e somos capazes de reconhecer a fonte dos dados. Fregüentemente, 
somos capazes de fazer 1550 quase que imediatamente e praticamente sem esforço, Podemos, por 
exemplo, reconhecer um rosto familiar de uma pessoa muito embora esta pessoa tenha envelhecido 
desde o nosso último encontro, identificar uma pessoa familiar pela sua voz ao telefone, apesar de 
uma conexão ruim, e distinguir um ovo fervido que é bom de um ruim pelo seu cheiro. Os humanos 
realizam o reconhecimento de padrões através de um processo de aprendizagem; e assim acontece 
com as redes neurais. 

O reconhecimento de padrões é formalmente definido como o processo pelo qual um padrão” 
sinal recebido é atribuido a uma classe dentre um numero predeterminado de classes (categorias). 
Uma rede neural realiza o reconhecimento de padrões passando inicialmente por uma seção de 
tremamento, durante a qual se apresenta repetidamente à rede um conjunto de padrões de entrada 
junto com a categoria à qual cada padrão particular pertence. Mais tarde, apresenta-se à rede um 
novo padrão que não foi visto antes, mas que pertence à mesma população de padrões utilizada para 
treinar a rede. A rede é capaz de identificar a classe daquele padrão particular por causa da informa- 
ção que ela extraiu dos dados de treinamento, O reconhecimento de padrões realizado por uma rede 
neural é de natureza estatistica, com os padrões sendo representados por pontos em um espaço de 
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decisão multidimensional, O espaço de decisão é dividido em regiões, cada uma das quais associa- 
da a uma classe. As fronteiras de decisão são determinadas pelo processo de treinamento. À cons- 
trução dessas fronteiras é tornada estatística pela variabilidade inerente que existe dentro das clas- 
ses e entre as classes. 

Em termos genéricos, as máquinas de reconhecimento de padrões que utilizam redes neurais 
podem assumir uma das duas formas seguintes: 


+ A máquina é dividida em duas partes, uma rede näo-supervisionada para extração de caracte- 
risticas e uma rede supervisionada para classificação, como mostrado na Fig. 2.10a. Este 
método segue a abordagem tradicional de reconhecimento estatístico de padrões (Duda e Hart, 
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1973; Fukunaga, 1990). Em termos conceituais, um padrão é representado por um conjunto de 
m observáveis, que pode ser visto como um ponto x de um espaço de observação (de dados) 
m-dimensional. À extração de caracteristicas é descrita por uma transformação que mapeia o 
ponto x para um ponto intermediário y em um espaço de caracteristicas q-dimenstonal, com 
< m, como indicado na Fig. 2.10b, Esta transformação pode ser vista como uma redução de 
dimensionalidade (1.c., compressão de dados), cuja utilização é justificada por ela simplificar 
a tarefa de classificação. À própria classificação é descrita como uma transformação que mapeia 
o ponto intermediário y рага uma das classes em um espaço de decisão r-dimensional, onde г 
é o número de classes a ser distinguidas. 

* À máquina é projetada como uma única rede de múltiplas camadas alimentada adiante, utili- 
zando um algoritmo de aprendizagem supervisionada. Nesta segunda abordagem, a tarefa de 
extração de caracteristicas é realizada pelas unidades computacionais da(s) camada(s) oculta(s) 
da rede. 


A escolha de qual destas duas abordagens deve ser adotada na prática depende da aplicação de 
interesse. 
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Aproximação de Funções 


A terceira tarefa de aprendizagem de interesse é a aproximação de funções. Considere um 
mapeamento de entrada-saida não-linear descrito pela relação funcional 


d = f(x) (2.19) 


onde o vetor x é a entrada e o vetor d é a saida. Supõe-se que a função de valor vetorial f(-) seja 
desconhecida. Para compensar a falta de conhecimento sobre a função f(-), é fornecido um conjunto 
de exemplos rotulados: 


ar 5 
T={(x.d,)} (2.20) 
O objetivo é projetar uma rede neural que aproxime а função desconhecida f(-) de forma que a 
função FE) que descreve o mapeamento de entrada-saida realmente realizado pela rede esteja sufi- 
cientemente próxima a f(-), em um sentido euclidiano, sobre todas as entradas, como mostrado por 


Fix) = f(x)| «€ para todo x (2.21) 


onde E é um número positivo pequeno. Contanto que o tamanho N do conjunto de treinamento seja 
suficientemente grande e que a rede esteja equipada com um número adequado de parâmetros li- 
vres, então pode-se fazer o erro aproximativo ё suficientemente pequeno para a tarefa, 

O problema de aproximação deserto aqui é um candidato perleito para a aprendizagem super- 
visionada, com x, desempenhando o papel do vetor de entrada e d desempenhando o papel da 
resposta desejada. Podemos então inverter esta questão e ver a aprendizagem supervisionada como 
um problema de aproximação. 

A habilidade de uma rede neural de aproximar um mapeamento de entrada-saida desconheci- 
do pode ser explorada de duas formas importantes: 


+ Identificação de sistema. Suponha que a eq. (2.19) descreva a relação de entrada-saida de um 
sistema de múltiplas entradas — multiplas saidas (MIMO, multiple input-multiple output) sem 
memória, desconhecido, entendemos por sistema “sem memória” um sistema que seja invariante 
no tempo, Podemos então utilizar o conjunto de exemplos rotulados da Eq. (2.20) para treinar 
uma rede neural como um modelo do sistema. Suponha que y, represente a saida da rede 
neural produzida em resposta a um vetor de entrada x À diferença entre d (associado com x ) 
e a saida da rede y, fornece o vetor de sinal de erro e, como representado na Fig. 2.11. Este 
sinal de erro, por sua vez, é usado para ajustar os parâmetros livres da rede de forma a minimizar 
a diferença quadrática entre as saidas do sistema desconhecido e a rede neural em um sentido 
estatístico, e é calculado sobre o conjunto de treinamento inteiro. 

+ Sistema inverso. Suponha a seguir que nos seja fornecido um sistema MIMO conhecido, sem 
memória, cuja relação de entrada-saida é descrita pela Eq. (2.19). O objetivo neste caso é 
construir um sistema inverso que produza o vetor x em resposta ao vetor d. O sistema inverso 
pode, assim, ser descrito por 


x —f (d) (2.22) 
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onde a função de valor vetorial f (+) representa a inversa de f(-). Note, entretanto, que f*(-) 
não é a reciproca de f(-); em vez disso, o uso do indice -1 é meramente para indicar uma 
inversão. Em muitas situações encontradas na prática, a função de valor vetorial f(-) é por 
demais complexa para que se possa formular diretamente a função inversa f '(-). Dado o con- 
junto de exemplos rotulados da Eq. (2.20), podemos construir uma aproximação por rede 
neural de F(-), utilizando o esquema mostrado na Fig. 2.12. Na situação aqui descrita, os 
papéis de x, e d, foram trocados: o vetor d é utilizado como a entrada e x, é tratado como a 
resposta desejada. Suponha que o vetor de sinal de erro e, represente a diferença entre x, e a 
saida real y, da rede neural, produzida em resposta a й, Como no problema de identificação de 
sistemas, este vetor de sinal de erro é utilizado para ajustar os parámetros livres da rede neural, 
de modo a minimizar a diferença quadrática entre as saídas do sistema inverso desconhecido e 
da rede neural em um sentido estatístico, e é calculado sobre o conjunto de treinamento com- 
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O controle de uma planta é uma outra tarefa de aprendizagem que pode ser feita por uma rede 
neural; aqui, “planta” significa um processo ou uma parte critica de um sistema que deve ser man- 
tido em uma condição controlada, A relevância da aprendizagem para o controle não deveria ser 
surpreendente porque, afinal, o cérebro hamano é um computador (1.e., um processador de informa- 
ção), que, visto como um sistema, produz saídas que são ações. No contexto de controle, o cérebro 
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é a prova viva de que é possível construir um controlador genérico que tira total vantagem da 
implementação fisica paralelamente distribuida, que pode controlar muitos milhares de atuadores 
(fibras musculares) em paralelo, que pode tratar não-lincaridades e ruido e que pode realizar 
otimização sobre um honzonte de planejamento muito amplo (Werbos, 1992). 

Considere o sistema de controle realimentado da Fig. 2.13. O sistema envolve o uso de reali- 
mentação unitária em torno de uma planta a ser controlada; isto é, a saida da planta é realimentada 
diretamente para a entrada." Com isso, a saida da planta y é subtraida de um sinal de referência d 
fornecido por uma fonte externa. O sinal de erro e assim produzido é aplicado a um controlador 
neural com o proposito de ajustar os seus parâmetros livres. O objetivo principal do controlador é 
fornecer entradas apropriadas para a planta, fazendo com que a sua saida y siga o sinal de referência 
d. Em outras palavras, o controlador deve inverter o comportamento de entrada-saida da planta. 

Notamos que na Fig. 2.13 o sinal de erro e deve-se propagar através do controle neural antes 
de alcançar a planta. Consegüentemente, para realizar ajustes nos parâmetros livres da planta de 


acordo com um algoritmo de aprendizagem por correção de erros, precisamos conhecer a matriz 
jacobiana 
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FIGURA 2.13 Diagrama em blocos de um sistema de controle realimentado 


onde у, é um elemento da saída da planta y e w, é um elemento da entrada da planta u. Infelizmente, 
as derivadas parciais v,/ ы para vários ke, dependem do ponto de operação da planta e, portanto, 
não são conhecidas. Podemos adotar uma de duas abordagens para tratar este problema: 


* Aprendizagem indireta, Utilizando medidas de entrada-saida reais da planta, é construido ini- 
cialmente um modelo bascado em rede neural para produzir uma cópia da planta. Por sua vez, 
este modelo € utilizado para fornecer uma estimativa da matriz jacobiana J. As derivadas 
parciais que constituem esta matriz jacobiana são utilizadas subsequentemente no algoritmo 
de aprendizagem por correção de erro para calcular os ajustes dos parâmetros livres do 
controlador neural (Nguyen e Widrow, 1989; Suykens et al, 1996; Widrow e Walach, 1996). 

* Aprendizagem direta. Os sinais das derivadas parciais dy, /du. são geralmente conhecidos e 
normalmente se mantêm constantes ao longo do intervalo dinâmico da planta. Isto sugere que 
podemos aproximar estas derivadas parciais pelos seus sinais individuais. Os seus valores 
absolutos recebem uma representação distribuida nos parâmetros livres do controlador neural 
(Saerens e Soquet, 1991; Schiffman e Geffers, 1993). Com isso, o controlador neural se torna 
capacitado a aprender os ajustes de seus parámetros livres diretamente da planta. 
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Filtragem 


O termo filtro se refere frequentemente a um dispositivo ou algoritmo utilizado para extrair infor- 
mação sobre uma determinada grandeza de interesse a partir de um conjunto de dados ruidosos. O 
ruido pode surgir de uma variedade de fontes. Os dados podem ter sido medidos por meio de sensores 
ruidosos, por exemplo, ou podem representar um sinal portador de informação que foi corrompido 
pela transmissão atraves de um canal de comunicação. Como outro exemplo, pode-se ter uma com- 
ponente de sinal útil, corrompida por um sinal de interferência captado do meio ambiente. Podemos 
utilizar um filtro para realizar três tarefas básicas de processamento de informação: 


1. Filtragem. Esta tarefa se refere à extração de informação sobre uma quantidade de interesse no 
tempo discreto n, utilizando dados medidos até o tempo m, inclusive, 

2. Suavização. Esta segunda tarefa difere da filtragem pelo fato de que não é necessário que a 
informação sobre a grandeza de interesse esteja disponível no tempo n e de que os dados medi- 
dos após o tempo a podem ser usados para obter esta informação. Isto significa que, na suavização, 
há um atraso na produção do resultado de interesse. Já que no processo de suavização podemos 
usar dados obtidos não apenas até o tempo n mas também após o tempo n, podemos esperar que 
a suavização seja mais precisa que a filtragem em um sentido estatístico. 

3. Previsão. Esta tarefa corresponde ao lado preditivo do processamento de informação. O objetivo 
aqui é derivar informação sobre como será a grandeza de interesse em um determinado tempo r 
+ n, no futuro, para algum n, > O, utilizando os dados medidos até o tempo п inclusive. 


Um problema de filtragem com o qual os seres humanos estão familiarizados é o problema da festa 
de coquetel. Temos uma habilidade notável para nos concentrarmos em um locutor dentro de um 
ambiente ruidoso de uma festa de coquetel, apesar de o sinal de voz originário daquele locutor estar 
envolvido por um fundo extremamente ruidoso devido à interferência de outras conversas na sala. 
Presume-se que alguma forma de análise pré-atentiva, pré-consciente deve estar envolvida na reso- 
lução do problema da festa de coquetel (Velmans, 1995). No contexto das redes neurais (artificiais), 
um problema similar de filtragem ocorre na chamada separação cega de sinal (Comon, 1994; Bell 
e Sejnowski, 1995; Amari e al. 1996). Para formular o problema da separação cega de sinal, consi- 
dere um conjunto de sinais de fonte desconhecidos [s.(n)]" . que são mutuamente independentes 
entre si. Estes sinais são misturados linearmente por um sensor desconhecido para produzir o vetor 
de observação m-por-1 (veja a Fig. 2.14) 
















x(1)= A u(5) (2.24) 
onde 
u(n) = [u (n), ulm)... и (n)]" (2.25) 
x(n) = [x (11), х, (м), x, 00 (2.26) 
mM i zi (м) 
| жүн 
| шм) | REB ы yin) 
| u(n) © rn disto al) 
| А і : 
Ml) EXC 2 у„(н) 
FIGURA 2.14 Diagrama em blocos Tone nn a 


da separação cega de fonte desconhecido 
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e A é uma matriz de mistura não-singular, desconhecida, de dimensões m-por-m. Dado o vetor de 
observação x(n), o objetivo é recuperar os sinais originais u (n). и.т)... и (п) de uma maneira não- 
supervisionada. 

Voltando-se agora ao problema da previsão, o objetivo é prever o valor presente x(n) de um 
processo, dados valores passados deste processo, que são uniformemente espaçados no tempo, como 
mostrado por х(л — Г), x(n — 2T)...., x(n — mT), onde Té o periodo de amostragem e m é a ordem da 
previsão. A previsão pode ser resolvida utilizando-se aprendizagem por correção de erro de uma 
maneira náo-supervisionada, já que os exemplos de treinamento são retirados diretamente do pró- 
prio processo, como representado na Fig. 2.15, onde x(n) atua como resposta desejada. Suponha 
que x (n) represente a previsão de um passo produzida pela rede neural no tempo n. O sinal de erro 
eln) é definido como a diferença entre x(n) e x(1), que é usada para ajustar os parâmetros livres da 
rede neural. Com isso, a previsão pode ser vista como uma forma de construção de modelo, signi- 
ficando que quanto menor for o erro de previsão em um sentido estatístico, melhor será o desempe- 
nho da rede como um modelo do processo físico básico que é responsável pela geração dos dados. 
Quando este processo é ndo-linear, o uso de uma rede neural fomece um método poderoso para 
resolver o problema de previsão, devido às unidades de processamento nào-lineares que podem ser 
usadas nesta construção. Entretanto, a única exceção possível para o uso de unidades de processamento 
näo-lineares é a unidade de saida da rede: se o intervalo dinâmico da série temporal 1x(n)j for 
desconhecido, a utilização de uma unidade de saída linear é a escolha mais razoável, 
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Formação de feixe 


A formação de feixe é uma forma de filtragem espacial e é utilizada para distinguir entre as 
propriedades espaciais de um sinal-alvo e o ruido de fundo. O dispositivo usado para realizar a 
formação de feixe é chamado de formador de feixe. 

A tarefa de formação de feixe é compativel com o uso de uma rede neural, para o que temos 
indicações importantes de estudos da psico-acústica das respostas auditivas humanas (Bregman, 
1990) e de estudos do mapeamento de caracteristicas nas camadas corticais dos sistemas auditivos 
de morcegos ecolocalizadores (Suga, 1990a; Simmons e Sailant, 1992). O morcego ecolocalizador 
irradia o meio ambiente transmitindo sinais de frequência modulada (FM) de curta duração e então 
utiliza o seu sistema auditivo (inclumdo um par de orelhas) para focar a atenção na sua presa (p.ex., 
um inseto voador), As orelhas fornecem ao morcego uma forma de filtragem espacial (interferometria, 
para sermos exatos), que é então explorada pelo sistema auditivo para produzir uma seletividade 
por atenção. 

A formação de feixe é normalmente utilizada em sistemas de radar e sonar nos quais a tarefa 
principal é detectar e perseguir um alvo de interesse na presença combinada de ruido do receptor e 
sinal de interferência (p.ex., obstrutores). Esta tarefa é complicada por dois fatores. 


Processos DE APRENDIZAGEM 99 


e O sinal-alvo se origina em uma direção desconhecida. 
* Não há informação a priori disponível sobre os sinais de interferência. 


Uma forma de lidar com situações deste tipo é utilizando um cancelador de lóbulo lateral genera- 
lizado (CLLG), cujo diagrama em blocos está mostrado na Fig. 2.16. O sistema consiste dos se- 
guintes componentes (Griffiths e Jim, 1982; Van Veen, 1992; Haykin, 1996): 






Resposta desejada dtar) 


Sinal de erro ein) 


FIGURA 2.16 Diagrama em blocos do cancelador de lóbulo lateral generalizado 


е Um arranjo de elementos de antenas, que fornece um meio de amostrar o sinal observado em 
pontos discretos do espaço. 

* Um combinador linear definido por um conjunto de pesos fixos [w;]^ , cuja saida é uma 
resposta desejada, Este combinador linear age como um “filtro espacial”, sendo caracterizado 
por um padrão de radiação (i.e., um gráfico polar da amplitude da saida da antena em função 
do ângulo de incidência de um sinal incidente). O lóbulo principal deste padrão de radiação 
está apontado ao longo de uma direção predeterminada, para a qual o CLLG deve ser restrito 
para produzir uma resposta sem distorções. A saida do combinador linear, representada por 
din), fomece uma resposta desejada para o formador de feixe. 

* Uma matriz bloqueadora de sinal C , cuja função é cancelar a interferência que escapa através 
dos lóbulos laterais do padrão de radiação do filtro espacial que representa o combinador 
linear. 

* Uma rede neural com parâmetros ajustáveis, que é projetada para acomodar variações estatis- 
ticas nos sinais de interferência. 


Os ajustes dos parâmetros livres da rede neural são realizados por um algoritmo de aprendizagem 
por correção de erro que opera sobre o sinal de erro e(n), definido como a diferença entre a saída do 
combinador linear (л) e a saida real yir) da rede neural. Assim, o CLLG opera sob a supervisão do 
combinador linear que assume o papel de um "professor". Como na aprendizagem supervisionada 
usual, note que o combinador linear está fora do laço de realimentação que age sobre a rede neural. 
Um formador de feixe que utiliza uma rede neural para a aprendizagem é chamado de formador de 
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feixe neural. Esta classe de máquinas de aprendizagem se enquadra sob o título geral de 
neurocomputadores atencionais (Hecht-Nielsen, 1990). 

A diversidade das seis tarefas de aprendizagem discutidas aqui serve de testemunho para à 
universalidade das redes neurais como sistemas de processamento de informação. Em um sentido 
fundamental, todas estas tarefas de aprendizagem são problemas relativos a aprender um mapeamento 
a partir de exemplos (possivelmente ruidosos) de mapeamentos. Sem a imposição de conhecimento 
prévio, cada uma destas tarefas é na verdade mal-formulada, no sentido da não-unicidade das pos- 
siveis soluções de mapeamento. Um método de tomar a solução bem-formulada é utilizar a teoria 
da regularização, como descrito no Capítulo 5. 


211 MEMÓRIA 


A discussão de tarefas de aprendizagem, particularmente a tarefa de associação de padrões, nos leva 
naturalmente a refletir sobre a memoria. Em um contexto neurobiolögico, memória se refere ás 
alterações neurais relativamente duradouras induzidas pela interação de um organismo com o seu 
ambiente (Teyler, 1986). Sem esta alteração não pode haver memória. Além disso, para que a me- 
топа seja útil, ela deve ser acessivel ao sistema nervoso para poder influenciar o comportamento 
futuro. Entretanto, um padrão de atrvidade deve ser inicialmente armazenado na memória através 
de um processo de aprendizagem. Memória e aprendizagem estão conectadas de forma intrincada. 
Quando um padrão de atividade particular é aprendido, ele é armazenado no cérebro, de onde pode 
ser recuperado mais tarde, quando exigido. A memória se divide em memória de “curto prazo” e de 
“longo prazo”, dependendo do tempo de retenção ( Arbib, 1989). Memoria de curto prazo se refere 
a uma compilação de conhecimento que representa a estado “corrente” do ambiente. Quaisquer 
discrepâncias entre o conhecimento armazenado na memória de curto prazo e um “novo” estado são 
usadas para atualizar a memória de curto prazo, Memória de longo prazo, por outro lado, se refere 
ao conhecimento armazenado por um longo periodo ou permanentemente. 
Nesta seção, estudamos uma memória associativa que oferece as seguintes caracteristicas: 


e A memória é distribuída, 

+ Tanto os padrões de estimulo (chave) como os padrões de resposta (armazenados) de uma 
memória associativa consistem de vetores de dados. 

e A informação é armazenada na memória estabelecendo-se um padrão espacial de atividades 
neurais através de um grande número de neurônios. 

+ A informação contida em um estimulo nào apenas determina o seu local de armazenamento 
mas também o endereço para a sua recuperação. 

* Embora os neurônios não representem células computacionais confiáveis e de baixo ruído, а 
memória exibe um alto grau de resistência a ruido e a falhas, de uma forma difusa. 

+ Pode haver interações entre padrões individuais armazenados па memória. (De outra forma, a 
memória deveria ser excepcionalmente grande para acomodar о armazenamento de um gran- 
de número de padrões em perfeito isolamento entre si.) Existe, portanto, a possibilidade de a 
memória cometer erros durante o processo de recordação. 


Em uma memória distribuida, a questão básica de interesse são as atividades simultáneas ou quase 
simultâneas de muitos neurônios diferentes, que são o resultado de estímulos externos ou internos. 
As atividades neurais formam um padrão espacial dentro da memória que contém informação sobre 
os estimulos, Diz-se, portanto, que a memória realiza um mapeamento distribuido que transforma 
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um padrão de atividade no espaço de entrada em um outro padrão de atividade no espaço de saída. 
Podemos ilustrar algumas propriedades importantes de um mapeamento de memória distribuida 
considerando uma rede neural idealizada que consiste de duas camadas de neurônios. A Figura 
2.17a ilustra uma rede que pode ser vista como um componente modelo de um sistema nervoso 
(Cooper, 1973; Scofield e Cooper, 1985). Cada neurômo da camada de entrada estã conectado a 
todos os neurônios da camada de saida. As conexões sinápticas reais entre os neurônios são comple- 
xas e redundantes. No modelo da Fig. 2.17a, uma única junção ideal é utilizada para representar o 
efeito integrado de todos os contatos sinápticos entre os dendritos de um neurónio da camada de 
entrada e os ramos do axónio de um neurônio da camada de saida. O nivel de atividade de um 
neurónio da camada de entrada pode afetar o nivel de atividade de todos os outros neurônios da 
camada de saida. 
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Camada de entrada Junges Camada de saita 
de neurônios sinápiicas de neuránias 


[а] Componente modelo da memória associativa 
de um sistema nervoso 
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FIGURA 2.17 Modelos (bj Modelo de memória associativa utilizando 


de PA Abba neurónios arti fici ais 

A situação correspondente para uma rede neural artificial está representada na Fig. 2.17h. 
Aqui temos uma camada de entrada de nós de fonte e uma camada de saida de neurônios agindo 
como nós computacionais. Neste caso, os pesos sinápticos da rede estão incluídos como partes 
integrantes dos neurônios da camada de saida. Os elos de conexão entre as duas camadas da rede 
são simplesmente fios. 

Na análise matemática seguinte, supõe-se que ambas as redes neurais das Figs. 2.17a e 2.17b 
são lineares. À implicação desta suposição é que cada neurônio age como um combinador linear, 
como representado no grafo de fluxo de sinal da Fig. 2.18. Para prosseguir com a análise, suponha 
que um padrão de atividade x, ocorra na camada de entrada da rede e que um padrão de atividade y, 
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FIGURA 2.18 Modelo de gralo de 
fluxo de sinal de um neurónio linear 
rotulado y 





ocorra simultaneamente na camada de saida. A questão que desejamos considerar aqui é a aprendi- 
zagem da associação entre os padrões x, e y,. Os padrões x, e y, são representados por vetores, 
escritos nas suas formas expandidas como: 


x, m É RPE Хун, Ж]! 


y," [^i Fir Jim i 
Por conveniência de apresentação, supomos que à dimensionalidade do espaço de entrada (i.e., a 
dimensão do vetor x, ) é a mesma que a dimensionalidade do espaço de saída (1.е., a dimensão do 
vetor y, ) e igual a m. De agora em diante, nós nos referimos a m como a dimensionalidade da rede 
ou simplesmente dimensionalidade. Note que m é igual ao número de nós de fonte na camada de 
entrada ou de neurônios na camada de saída, Para uma rede neural com um grande número de 
neurônios, que é o caso tipico, a dimensionalidade m pode ser grande. 

Os elementos tanto de x, como de y, podem assumir valores positivos e negativos. Esta é uma 
proposição válida em uma rede neural artificial, Isto também pode ocorrer em um sistema nervoso, 
considerando que a variável fisiológica relevante seja a diferença entre um nivel de atividade real 
(p.ex., a taxa de disparo de um neurônio) e um nivel de atividade espontâneo diferente de zero. 

supondo que as redes da Fig. 2.17 sejam lineares, a associação do vetor-chave x, com o vetor 
memorizado v, pode ser descrita na forma matricial como: 


v= Wilk, — k-l2,.q (2.27) 


onde W(4) é uma matriz de pesos determinada apenas pelo par de entrada-saída (x. y,). 

Para desenvolvermos uma descrição detalhada da matriz de pesos W(£), considere a Fig. 2.18, 
que mostra um arranjo detalhado do neurônio i da camada de saida, A saida у, do neurônio i devido 
à ação combinada dos elementos do padrão-chave x, aplicado como estimulo à camada de entrada, 
é dada por 


уы = Var We, iz1,2,..., (2.28) 
fm] 


onde os 40 (А), [= 1, 2. ..., m, são os pesos sinápticos do neurônio i correspondentes ao k-ésimo par 
de padrões associados. Utilizando a notação matricial, podemos expressar у, na forma equivalente 
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ATT 


Tal, 
yy [ww 80, (6)] Dp ES LZM (2.29) 


Xim 
Reconhecemos o vetor coluna no lado direito da Eq. (2.29) como o vetor-chave x,. Substituindo a 
Eq. (2.29) na definição do vetor m-por-| armazenado y,, obtemos 


Fu wilk) wolk) ce wu xa 


Y z vale Walk) Wilk) Tia (2.30) 


Fem [ed Walk) O Un MR) Ex, 


A Equação (2.30) é a forma expandida da transformação matricial ou mapeamento descrito na Eq. 
(2.27). Em particular, a matriz de pesos m-por-m М(Х) é definida por 


ur, (4) wkk) gs Wilk) 


Walk) owl) + WA) 


Wik)= (2.31) 


Walk) s (A) -- tb, (A) 


As apresentações individuais dos q pares de padrões associados X — Yp k7 1,2, ..., q, produzem 
valores correspondentes da matriz individual, ou seja, W(1), W(2), ..., Wig). Reconhecendo que 
esta associação de padrões é representada pela matriz de pesos Wik), podemos definir uma matriz 
de memória m-por-m que descreve a soma das matrizes de pesos para o conjunto inteiro de associ- 
ações de padrões como segue: 


M= 2 Wik) (2.32) 


A matriz de memória M define a conectividade global entre as camadas de entrada e de saida da 
memória associativa. Na verdade, ela representa a experiência total ganha pela memória como 
resultado das apresentações de q padrões de entrada-saida. Dito de outra forma, a matriz de memó- 
ria M contém uma parte de cada par de entrada-saida dos padrões de atividade apresentados à 
memória. 

A definição da matriz de memória dada pela Eq. (2.32) pode ser reestruturada em forma recursiva 
como mostrado por 


M,-M,,*W(),  k=1,2.,9 (2.33) 


onde o valor inicial M, é zero (i.e, os pesos sinápticos da memória são inicialmente todos zero), е 
o valor final M, é identicamente igual a M como definido na Eq. (2.32). De acordo com a fórmula 
recursiva da Eq. (2.33), o termo M, , é o valor antigo da matriz de memória resultante das associa- 
ções de padrões (k — 1), e M, é o valor atualizado devido ao incremento М(Х) produzido pela k- 


ésima associação. Note, entretanto, que quando Wik) é adicionado a M, o incremento W(£) perde 
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onde, na segunda linha, reconhecemos que x; x, é um escalar igual ao produto interno dos vetores- 
chave x, e x. Podemos rescrever a Eq. (2.40) como 


у= (х/х, )у, + Y (x/1,), (2.41) 
dal 


Джу 


Suponha que cada um dos padrões-chave X,, X,,..., x, seja normalizado para ter energia unitária; isto 
É, 


E, = хи 
= xIx, (2.42) 


=), k-212...4 


Consegüentemente, podemos simplificar a resposta da memória ao estimulo (padrão-chave) x, como 
= ua (2.43) 


onde 


У, = Lany (2.44) 


kj 


O primeiro termo no lado direito da Eq. (2.43) representa a resposta “desejada” y ; ele pode ser 
visto, portanto, como a componente do “sinal” da resposta real y. O segundo termo v é um “vetor de 
ruido" que surge devido à interferéncia cruzada entre o vetor-chave x, € todos os outros vetores- 
chave armazenados na memória. O vetor de ruido v, é responsável pelos erros de recordação. 

No contexto de um espaço de sinal linear, podemos definir o co-seno do ángulo entre um par 
de vetores x e x, como o produto interno de x e x , dividido pelo produto de suas normas euclidianas 
ou comprimentos, como mostrado por 


: 
X, X, 


esu x) t bl (2.45) 
alls; 


O simbolo |x j| significà à norma cuclidiana do vetor x,, definida como à raiz quadrada da energia de 


A 











alt= (хех) 


(2.46) 
=l" 


Retornando à situação em questão, note que os vetores-chave são normalizados para terem energia 
unitária de acordo com a Eq. (2.42). Podemos, portanto, reduzir a definição da Eq. (2.45) a 


2 
CORK, N= X, X 


(2.47) 


Podemos então redefinir o vetor de ruido da Eq. (2.44) como 
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v, = 2, cosíx, x v, (2.48) 


Vemos agora que se os vetores-chave forem ortogonais (i.e, perpendiculares entre si no sentido 
euclidiano), entáo 


cos (x,. x) = (), K+j (2.49) 


e, portanto, o vetor de ruido v, é igual a zero. Neste caso, a resposta y iguala y. A memória associa 
perfeitamente se os vetores-chave pertencerem a um conjunta ortonormal, isto €, se eles satisfize- 
rem o seguinte par de condições: 


re ^ 
rU 0, kaj (2.50) 


Suponha agora que os vetores-chave formam um conjunto ortonormal, como descrito pela Ea. (2.50). 
Qual é então o limite da capacidade de armazenamento da memória associativa? Dito de outra 
forma, qual é o maior número de padrões que podem ser armazenados de forma confiável? A res- 
posta a esta questão fundamental se encontra no posto da matriz de memória M. O posto de uma 
matriz é definido como o número de colunas (linhas) independentes da matriz. Isto é, ser é o posto 
de uma matriz retangular de dimensões /-por-rt, temos então que r € min(/, m). No caso da memória 
por correlação, a matriz de memória M é uma matriz m-por-m, onde m é a dimensionalidade do 
espaço de entrada. Assim, o posto da matriz de memória M é limitado pela dimensionalidade m. 
Podemos então formalmente afirmar que o número de padrões que podem ser armazenados de 
forma confiável em uma memória por matriz de correlação nunca pode exceder a dimensionalidade 
do espaço de entrada. 
Em situações do mundo real, frequentemente observamos que os padrões-chave apresentados 
à uma memoria associativa não são nem ortogonais nem estão muito separados entre si. Conseqüen- 
temente, uma memória por matriz de correlação caracterizada pela matriz de memória da Eq. (2.34) 
pode algumas vezes se confundir e ocasionar erros. Isto é, a memória ocasionalmente reconhece e 
associa padrões que antes nunca foram vistos ou associados. Para ilustrar esta propriedade de uma 
memória associativa, considere um conjunto de padrões-chave. 
ix DX 


Juve! " 


Te VENDE Я 


e um conjunto correspondente de padrões memorizados, 


AE Yır Ya, 


Para expressar a proximidade dos padrões-chave em um espaço de sinais lineares, introduzimos o 
conceito de comunidade. Ге a comunidade do conjunto de padrões fx, como o limite 
inferior dos produtos internos x; x, de dois padrões quaisquer x e x, do conjunto. “Suponha que M 
represente a matriz de memória resultante do treinamento da memória associativa com um conjunto 
de padrões-chave representado por {x € um conjunto correspondente de padrões memorizados 
{У uUi» de acordo com a Eq. (2.34). A resposta da memória, y, a um estimulo x, selecionado do 
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conjunto fx} é dada pela Eq. (2.39), onde supomos que cada padrão do conjunto {X Cum 
vetor unitário (1.€., um vetor com energia unitária). Suponhamos ainda que 


X,x,2]y рага кж (2.51) 


Se o limite inferior y for suficientemente grande, a memória pode falhar em distinguir a resposta y 
daquela de qualquer outro padrão-chave contido no conjunto {X |. Se os padröes-chave deste 
conjunto tiverem à forma 


х= x +v (2.52) 


onde v é um vetor estocástico, é provável que a memória reconheça x, e o associe a um vetor y, em 
vez de associá-lo a qualquer um dos pares de padrões reais utilizados inicialmente para treiná-la; x, 
e y, representam um par de padrões nunca vistos anteriormente. Este fenômeno pode ser chamado 
de lógica animal, apesar de não ser nada lógico (Cooper, 1973). 


2.12 ADAPTAÇÃO 


Na realização de uma tarefa de interesse, frequentemente constatamos que o espaço é uma dimen- 
são fundamental do processo de aprendizagem, o tempo é a outra, А natureza espaço-temporal da 
aprendizagem é exemplificada por muitas das tarefas de aprendizagem (p.ex., controle, formação 
de feixe) discutidas na Seção 2.10. Todas as espécies, desde insetos até os humanos, tém uma 
capacidade inerente de representar a estrutura temporal da experiência. Uma representação assim 
torna possivel para um animal adaptar seu comportamento à estrutura temporal de um evento em 
seu espaço de comportamentos (Gallistel, 1990). 

Quando uma rede neural opera em um ambiente estacionário (Le. um ambiente cujas caracte- 
rísticas estatisticas não mudam com o tempo), as estatisticas essenciais do ambiente podem ser, em 
teoria, aprendidas pela rede, sob supervisão de um professor. Em particular, os pesos sinápticos da 
rede podem ser calculados submetendo-se a rede a uma sessão de treinamento com um conjunto de 
dados que é representativo do ambiente. Uma vez que o processo de treinamento esteja completo, 
os pesos sinápticos da rede capturariam a estrutura estatística subjacente do ambiente, o que justifi- 
caria o “congelamento” de seus valores depois disso. Assim, o sistema de aprendizagem se baseia 
de uma forma ou de outra na memória, para recordar e explorar experiências passadas. 

Frequentemente, entretanto, o ambiente de interesse é ndo-estacionário, o que significa que 
os parámetros estatísticos dos sinais portadores de informação, gerados pelo ambiente variam com 
o tempo. Em situações deste tipo, os métodos tradicionais de aprendizagem supervisionada podem 
se mostrar inadequados, pois a rede não está equipada com os meios necessários para seguir as 
variações estatísticas do ambiente no qual opera. Para superar esta dificuldade, é desejável que uma 
rede neural possa adaptar continuamente seus parâmetros livres às variações do sinal incidente em 
tempo real. Assim, um sistema adaptativo responde a toda entrada distinta como sendo uma entrada 
nova. Em outras palavras, o processo de aprendizagem encontrado em um sistema adaptativo nunca 
pára, com a aprendizagem sendo realizada enquanto o processamento de sinal está sendo executado 


pelo sistema. Esta forma de aprendizagem é chamada de aprendizagem continua ou aprendizagem 
em tempo real (on-the-fTy). 
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Os filtros adaptativos lineares, construidos em torno de um combinador linear (i.e., um único 
neurônio operando em seu modo linear), são projetados para realizar aprendizagem continua. Ape- 
sar da sua estrutura simples (e talvez por causa disso), eles são utilizados largamente em aplicações 
tão diversas como radar, sonar, comunicações, sismologia e processamento de sinal biomédico, À 
teoria dos filtros adaptativos lineares atingiu um estágio de desenvolvimento de elevada maturidade 
(Haykin, 1996; Widrow e Stearns, 1985). Entretanto, o mesmo não pode ser dito sobre os filtros 
adaptativos não-lineares. ” 

Considerando que a aprendizagem continua seja a propriedade de interesse e uma rede neural 
o veiculo para a sua implementação, a questão que devemos abordar ё: como uma rede neural pode 
adaptar seu comportamento à estrutura temporal variável dos sinais incidentes no espaço de com- 
portamentos? Uma forma de abordar esta questão fundamental é reconhecendo que as caracteristi- 
cas estatísticas de um processo náo-estacionário normalmente variam de forma suficientemente 
lenta para que o processo seja considerado pseuda-estacionario em uma janela de tempo com dura- 
ção suficientemente curta. Incluem-se como exemplos: 





* O mecanismo responsável pela produção de um sinal de voz pode ser considerado essencial- 
mente estacionário durante um periodo de 10 a 30 milissegundos. 

* Ondas de radar retornadas de uma superficie do oceano permanecem essencialmente estacio- 
nárias por um periodo de vários segundos. 

* Considerando-se a previsão do tempo a longo prazo, os dados meteorológicos podem ser 
vistos como essencialmente estacionarios durante um periodo de minutos. 

e No contexto de tendências a longo prazo, estendendo-se por meses e anos, os dados do merca- 
do de ações podem ser considerados como essencialmente estacionários por um periodo de 
dias. 


Desta forma, podemos explorar a propriedade pseudo-estacionária de um processo estocástico para 
estender a utilidade de uma rede neural, retreinando-a em determinados intervalos regulares, levan- 
do em conta assim as flutuações estatísticas dos dados incidentes. Esta abordagem pode, por exem- 
plo, ser adequada para processar dados do mercado de ações, 

Para uma abordagem dinamica mais refinada, pode-se proceder como segue: 


e Selecione uma janela suficientemente estreita para que os dados de entrada possam ser consi- 
derados pscudo-estacionários e use os dados para tremar a rede. 

+ Quando for recebida uma nova amostra dos dados, atualize a janela eliminando a amostra de 
dado mais antiga e deslocando as amostras restantes para trás, em uma unidade de tempo, 
para fazer espaço para a nova amostra. 

Utilize a janela de dados atualizados para treinar novamente a rede, 
Repita o procedimento de forma continua. 


Podemos, assim, incorporar a estrutura temporal no projeto de uma rede neural fazendo com que a 
rede sofra treinamento continuado com exemplos ordenados no tempo. De acordo com esta aborda- 
gem dinámica, uma rede neural é vista como um filtro adaptativo não-linear que representa uma 
generalização dos filtros adaptativos lineares. Entretanto, para que esta abordagem dinâmica para 
filtros adaptativos nào-lineares seja realizável, os recursos disponíveis devem ser suficientemente 
rápidos para completar todos os cálculos descritos durante um periodo de amostragem. Somente 
então o filtro acompanhara as variações na entrada. 
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2.13 NATUREZA ESTATÍSTICA DO PROCESSO DE APRENDIZAGEM 


A última parte do capitulo trata dos aspectos estatísticos da aprendizagem. Neste contexto, não 
estamos interessados na evolução do vetor de pesos w enquanto а rede neural passa por um algoritmo 
de aprendizagem. Em vez disso, concentramo-nos no desvio entre uma função "alvo" f(x) e a fun- 
ção "real" F(x, w), realizada pela rede neural, onde o vetor x representa o sinal de entrada, O desvio 
é expresso em termos estatísticos. 

Uma rede neural é meramente uma forma pela qual conhecimento empírico sobre um fenóme- 
no fisico ou ambiente de interesse pode ser codificado através de treinamento. Por conhecimento 
“empírico” entendemos um conjunto de medidas que caracterizam o fenômeno. Para sermos mais 
especificos, considere o exemplo de um fenômeno estocástico deserto por um vetor aleatório X 
consistindo de um conjunto de variaveis independentes, e um escalar aleatório D que representa 
uma variavel dependente. Os elementos do vetor aleatório X podem ter significados fisicos particu- 
lares diferentes. A suposição de que a variável dependente D é escalar foi feita simplesmente para 
simplificar a exposição, sem perda de generalidade. Suponha também que tenhamos N realizações do 
vetor aleatório X representadas por ix, ү, € um conjunto correspondente de realizações do escalar 
aleatório D representado por ld, x „Estas realizações (medidas) constituem a amostra de treinamento 
representada por 


3 (xd), em 


Normalmente, não conhecemos a relação funcional exata entre X e D e assim prosseguimos pro- 
pondo o modelo (White, 19592) 


D-f(X)*e (2.54) 


onde fl.) é uma função deterministica do seu argumento vetorial, e e é um erro de expectativa 
aleatório que representa a nossa “ignorância” sobre a dependência de D e X. O modelo estatístico 
descrito pela Eq. (2.54) é denominado um modelo regressivo, ele está representado na Fig. 2.20a. O 
erro de expectativa є é, em geral, uma variável aleatória com média nula e probabilidade de ocorrén- 
cia positiva. Baseado nisto, o modelo regressivo da Fig. 2.20a apresenta duas propriedades üteis: 


FIGURA 2.20 (a) Modelo 
imatemálco) regressivo. 
(b) Modelo (fisico) de rede 
ib} neural 
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1. O valor médio do erro de expectativa €, dada qualquer realização x, é zero; isto é, 
E[e|x] = 0 (2.55) 


onde E é o operador estatístico do valor esperado (esperança matemática). Como um corolário 
desta propriedade, podemos afirmar que a função de regressão f(x) é a média condicional da 
saida do modelo D, dado que a entrada X = x, como mostrado por 


f(x) = Ах] (2.56) 


Esta propriedade segue diretamente da Eq. (2.54), considerando-se a Eq. (2.55). 
2, O erm de expectativa € ndo é correlacionado com a função de regressão NX), isto € 


E[ef X)] = 0 (2.57) 


Esta propriedade é o hem conhecido principio da ortogonalidade, que afirma que toda a infor- 
mação sobre D que nos é disponibilizada através da entrada X está codificada na função de 
regressão AX). Pode-se demonstrar a Equação (2.57) escrevendo: 


E[ef(X)] = E[E[ef(X) | x]] 
= F[f(X)E[e| x] 


= E[f(X)- 0] 
=0 


O modelo regressivo da Fig. 2.20a é uma descrição “matemática” de um ambiente estocástico. O 
seu propósito é utilizar o vetor X para explicar ou prever a variável dependente D. A Figura 2.20b é 
o modelo “fisico” correspondente do ambiente. O propósito deste segundo modelo, baseado em 
uma rede neural, é codificar o conhecimento empírico, representado pela amostra de treinamento T 
em um conjunto correspondente de vetores de pesos sinápticos, w, como mostrado por 


S sw (2.58) 


Na verdade, a rede neural fornece uma “aproximação” рага o modelo regressivo da Fig. 2.202. 
Suponha que a resposta real da rede neural, produzida em resposta ao vetor de entrada x, seja 
representada pela variável aleatória 


Y — БХ, w) (2.59) 


onde F(-,w) é a função de entrada-saida realizada pela rede neural. Conhecidos os dados de treina- 
mento J da Eq. (2.53), o vetor de peso w é obtido pela minimização da função de custo 


" 

£(w)- „Xd - F(x,, w) (2.60) 
tel 

onde o fator 1/2 fot usado para ser consistente com as notações anteriores e com aquelas usadas nos 

capitulos subsequentes. Com exceção do fator de escala 1/2, a função de custo E(w) é a diferença 
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quadrática entre a resposta desejada d e a resposta real y da rede neural, calculada como a média 
sobre todo o conjunto de dados de treinamento T. O uso da Eq. (2.60) como função de custo 
implica a utilização do modo de treinamento por “lote”, pelo qual os ajustes dos pesos sinápticos da 
rede são realizados sobre o conjunto inteiro de exemplos de tremamento, em vez de o serem sobre 
cada exemplo individual. 

Suponha que o simbolo £, represente o operador média tomado sobre todo o conjunto de 
treinamento T. As variáveis ou SEE funções sobre as quais age o operador média £, são represen- 
tadas por x e d; o par (x, 2) representa um exemplo na amostra de treinamento de T. Por outro lado, 
o operador estatístico do valor esperado E age sobre todo o ensemble de variáveis aleatórias X e D, 
o que inclui T como um subconjunto. A diferença entre os operadores E e E. será cuidadosamente 
identificada a seguir. 

Considerando-se a transformação descrita pela Eq. (2.58), podemos usar alternativamente F(x, 
w) e Fix, 3) e assim rescrever a Eq. (2.60) na forma equivalente 


&w)= Е [td - FT] (2.61) 
Adicionando e subtraindo x) ao argumento (d — Fix, Ty) e então utilizando a Eq. (2.54), podemos 
escrever 
- F(x, 3) = (d — f(x) diu F(x, F)) 
=e+(fix)- Fix, 3)) 


Substituindo esta expressão na Eq. (2.61) e então expandindo os termos, podemos reformular a 
função de custo £(w) na forma equivalente 


£(w) => E, [e] > E, [fe - Foy | E, [469 — F6.2))] (2.62) 
Entretanto, o último termo do valor esperado no lado direito da Eq. (2.62) é zero por duas razões: 


* О erro de expectativa є é nào-correlacionado com a função de regressão Aix) devido à Eq. 
(2,57), interpretada em termos do operador E. 

+ O erro de expectativa є é relativo ao modelo de regressão da Fig. 2.20a, enquanto que a função 
aproximativa F(x, м) é relativa ao modelo de rede neural da Fig. 2.200. 


Conseqüentemente, à Eq. (2.62) se reduz a 
; 1 1.1 — 
E(w)= ; Ele |+ ¿Es O) Fix Ty] (2.63) 


O primeiro termo no lado direito da Eq. (2.63) é a variância do erro de expectativa (do modelo 
regressivo) e, calculado sobre o conjunto de treinamento Y. Este termo representa o erro intrinseco, 
porque ele é independente do vetor de pesos w. Ele pode ser ignorado, na medida em que seja 
considerada a minimização da função de custo 'E(w) em relação a w. Assim, o valor particular do 
vetor de pesos w* que minimiza a função de custo E(w) também irá minimizar a média de ensemble 
da distância quadrática entre a função de regressão f(x) e a função aproximativa F(x, м). Em outras 
palavras, a medida natural da eficiência de F(x, w) em prever a resposta descjada d é definida por 


E | UIX), Р(х, w) = E, Lx) — Fix, уу] (2.64) 
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Este resultado é de fundamental importância, pois fornece a base matemática para o compromisso 
entre o bias e a variância resultantes da utilização de F(x, w) como a aproximação de f(x) (German 
et al., 1992). 


Dilema Bias / Variância 


Invocando o uso da Eq. (2.56), podemos redefinir a distância quadrática entre (x) e F(x,w) como: 
L fx), Fla, туу = E.[(E[DIX = x] = Fix, 317] (2.65) 


Esta expressão pode também ser vista como o valor médio do erro estimativo entre a função de 
regressão f(x) = E[D|X = x] e a função aproximativa F(x, w), calculada sobre toda a amostra de 
treinamento T. Note que a média condicional ELOX = x] tem um valor esperado constante em 
relação ao conjunto de dados de treinamento Y. A seguir, constatamos que 


E[DIX =x] - Р(х, 3) = (E[D|X = x] - ES[Flx, DD + (ELF 3)] - Р(х, Ty) 


onde simplesmente adicionamos e subtraimos a média E,[F(x, TY]. Procedendo de uma maneira 
similar àquela descrita para derivar a Eq. (2.62) da Eq. (2.61), podemos reformular a Eq. (2.65) 
como a soma de dois termos (veja o Problema 2.22): 


LAR), Р(х, #Гуу= B'(w) + V (w) (2.66) 
onde B(w) e V(w) são, por sua vez, definidos por 


B(w) = E,[F(x, 3)] — ДОХ = x] (2.67) 


Fiw) = E (Fi, Y) — E,[F(x, 3)]Y] (2.68) 
Agora fazemos duas observações importantes: 


1. O termo B(w) é o bias do valor médio da função aproximativa F(x, 9), medido em relação à 
função de regressão fx) = ELDIX = x]. Este termo representa a incapacidade da rede neural 
definida pela função F(x, w) de aproximar com precisão a função de regressão x) = E[D|X = 
x]. Deste modo, podemos ver о bias Afw) como um erro aproximativa. 

2. O termo Fiw) é a variância da função aproximativa F(x, w), medida sobre toda a amostra de 
treinamento T. Este segundo termo representa a não-adequação da informação contida na amostra 
de treinamento Y acerca da função de regressão f(x). Podemos, portanto, ver a variância Fw) 
como a manifestação de um erro estimativo. 


A Figura 2.21 ilustra as relações entre as funções objetivo e aproximativa e mostra como os erros 
estimativos, isto é, o bias e a variância, se acumulam. Para se obter bom desempenho global, tanto 
о bias B(w) como a variância F(w) da função aproximativa Fix, м) = Fix, Y) devem ser pequenos. 
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FIGURA 2.21 Ilustração das várias fontes de erro na solução do problema de regressão 


Infelizmente, constatamos que em uma rede neural que aprende por exemplos utilizando para 
isso uma amostra de treinamento de tamanho fixo, o preço para se obter um bias pequeno é uma 
variância grande. Para uma rede neural única, somente quando o tamanho da amostra de treinamen- 
to se torna infinitamente grande é que podemos esperar eliminar tanto o bias como a variância, ao 
mesmo tempo. Temos então um dilema bias/variáncia, e a consequência é uma convergência exces- 
sivamente lenta (German et al, 1992). O dilema bias/variância pode ser evitado se estivermos dis- 
postos a incluir intencionalmente um bias, o que então torna possível eliminar a variância ou reduzi- 
la significativamente. É desnecessário se dizer que devemos assegurar que o bias incluído no proje- 
to da rede seja inofensivo. No contexto de classificação de padrões, por exemplo, dizemos que o 
bias é “inofensivo” quando ele contribuir significativamente para o erro médio quadrático somente 
se tentarmos inferir regressões que não estejam na classe prevista. Em geral, o bias deve ser conce- 
bido para cada aplicação específica de interesse. Um modo prático de se conseguir este objetivo é 
utilizando uma arquitetura restrita de rede, que normalmente tem desempenho melhor do que uma 
arquitetura de propósito geral, As restrições e portanto o bias podem, por exemplo, assumir a forma 
de conhecimento prévio incorporado no projeto da rede utilizando (1) compartilhamento de pesos 
onde várias sinapses da rede são controladas por um único peso, e/ou (2) campos receptivos locais 
atribuidos a neurônios individuais da rede, como demonstrado na aplicação de um perceptron de 
múltiplas camadas no problema do reconhecimento de um caracter óptico (LeCun et al., 19902). 
Estas questões de projeto de rede foram discutidas brevemente na Seção 1.7, 
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Nesta seção, continuamos a caracterização estatistica das redes neurais descrevendo uma teoria da 
aprendizagem que trata da questão fundamental de como controlar a habilidade de generalização de 
uma rede neural em termos matemáticos. À discussão é apresentada no contexto da aprendizagem 
supervisionada. 

Um modelo de aprendizagem supervisionada consiste de três componentes interrelacionados, 
ilustrados na Fig. 2.22 e descritos em termos matemáticos como segue (Vapnik, 1992, 1998): 


1. Ambiente. O ambiente é estacionário, fornecendo um vetor x com uma função de distribuição 
(de probabilidade) cumulativa fixa, mas desconhecida F dx). 
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2. Professor O professor fornece uma resposta desejada d para cada vetor de entrada x recebido do 
ambiente, de acordo com uma função de distribuição cumulativa condicional F {x| d) que é tam- 
bém fixa mas desconhecida, A resposta descjada d e o vetor de entrada x estão relacionados por 


й = fx, v) (2.69) 


onde v é um termo de ruído, que permite que o professor seja “ruidoso”. 
3. Maquina (algoritmo) de aprendizagem. A máquina de aprendizagem (rede neural) é capaz de 
implementar um conjunto de funções de mapeamento de entrada-saida descritas por 


у= Fix, w) (2.70) 


onde y é a resposta real produzida pela máquina de aprendizagem em resposta à entrada x, e w 
é um conjunto de parámetros livres (pesos sinápticos) selecionados do espaco de parámetros 


(pesos) W. 


As Equações (2.69) e (2.70) estão escritas em termos dos exemplos utilizados para realizar o treina- 
mento. 

O problema da aprendizagem supervisionada é selecionar a função particular F(x,w) que apro- 
xima a resposta desejada d de uma forma ótima, sendo “ótimo” definido em um sentido estatístico. 
A própria seleção é baseada no conjunto dos № exemplos de treinamento independentes, identicamente 
distribuidos (iid) descritos pela Eq. (2.53) e reproduzidos aqui por conveniência de apresentação: 


T = [txd 


Cada par de exemplos é retirado de T pela máquina de aprendizagem com uma função de distribui- 
ção (de probabilidade) cumulativa conjunta F, „(х, d), que, como as outras funções de distribuição, 
é também fixa mas desconhecida. A viabilidade da aprendizagem supervisionada depende desta 
questão: os exemplos de treinamento ((x, 4)? contêm informação suficiente para construir uma 
máquina de aprendizagem capaz de ter bom desempenho de generalização? Uma resposta para esta 
questão fundamental estã na utilização de ferramentas desenvolvidas por Vapnik e Chervonenkis 
(1971). Especificamente, procedemos vendo o problema da aprendizagem supervisionada como 
um problema de aproximação, que envolve encontrar a função F(x, w) que é a melhor aproximação 
possível рага a função desejada fx}. 
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Suponha que Lid, Р(х, w)) represente uma medida da perda ou discrepancia entre a resposta 
desejada d correspondente a um vetor de entrada x e a resposta real Fix, w) produzida pela máquina 
de aprendizagem. Uma definição popular para a perda Lid, F(x,w)) é a função de perda quadrática 
definida como a distância quadrática entre d = f(x) e a aproximação Р(х, м) como mostrado por" 


Lid, Fix, w)) = (d - Fix, w)Y (2.71) 


A distância quadrática da Eq. (2.64) é a extensão de Lid, F(x,w)) para a média de ensemble, com a 
média sendo realizada sobre todos os pares de exemplos (x, а). 

A maior parte da literatura sobre a teoria estatística da aprendizagem lida com uma perda 
especifica. O ponto forte da teoria estatistica da aprendizagem apresentada aqui é que ela não de- 
pende criticamente da forma da função de perda Lid, F(x, w)). Mais adiante nesta seção, restringi- 
remos a discussão a uma função de perda específica. 

O valor esperado da perda é definido pelo funcional de risco 


R(w)- [ue F(x, wa F, (xd) (2.72) 


onde a integral é uma integral múltipla sobre todos os valores possíveis do par de exemplo (x, d). O 
objetivo da aprendizagem supervisionada é minimizar о funcional de risco R(w) sobre a classe de 
funções aproximativas (F(x, w), we W}. Entretanto, o cálculo do funcional de risco R(w) é com- 
plicado porque a função de distribuição cumulativa conjunta F, (х, d) é normalmente desconheci- 
da. Na aprendizagem supervisionada, a única informação disponível está contida no conjunto de 
treinamento Y. Para superar esta dificuldade matemática, utilizamos o princípio indutivo da 
minimização do risco empírica (Vapnik, 1982), Este princípio se baseia inteiramente na disponibi- 
lidade do conjunto de dados de treinamento Y, o que o torna perfeitamente adequado à filosofia de 
projeto de redes neurais. 


Algumas Definições Básicas 


Antes de prosseguirmos, introduzimos algumas definições básicas que usaremos no material que se 
segue. 


Convergência em probabilidade. Considere uma sequência de variáveis aleatórias а, Aus а,. 
Dizemos que esta sequência de variáveis alcatórias converge em probabilidade para uma variável 
a,, se para qualquer 6 > O for válida a relação probabilística 


Pila, -a,|» 8 0 quando № — co (2.73) 


Supremo e ínfimo, O supremo de um conjunto não-vazio 4 de escalares, representado por sup A, 
é definido como o menor escalar x tal que x > v para todo y e dl. Se tal escalar não existe, dizemos 
que o supremo do conjunto não-vazio 4 é se, Analogamente, o infimo do conjunto zl, representado 
por inf sl, é definido como o maior escalar x tal que x € y para todo pe så. Se tal escalar não existe, 
dizemos que o infimo do conjunto não-vazio al é es, 


Funcional de risco empírico. Dada a amostra de treinamento Y = (х,а, Mos o funcional de 
risco empirico é definido em termos da função de perda Lid, Fix, мү) como 
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М 


К, (ж) = Y Ца, F(x, w)) (2.74) 


йш 


Consisténcia Estrita. Considere o conjunto W de funções L(d, F(x, w)) cuja distribuição funda- 
mental é definida pela função de distribuição cumulativa conjunta F, (x, 4). Suponha que Wie) 
seja um subconjunto não-vazio qualquer deste conjunto de funções, tal que 


wi =(w | a. Fo m ге) (2.75) 


onde c € (= «e, се), O funcional de risco empírico é dito ser estritamente (nào trivialmente) consis- 
tente se para qualquer subconjunto (с) seja válida a seguinte convergência em probabilidade 


. РЁ A 
inf К.) ——9 inf R(w) quando № — es (2.76) 


me Wi eh 


Com estas definições, podemos retomar a discussão da teoria de aprendizagem estatistica de Vapnik. 


Princípio da Minimização do Risco Empirico 


A idéia básica do princípio da minimização do risco empírico é trabalhar com o funcional de risco 
empírico R (w) definido pela Eq. (2.74). Este novo funcional difere do funcional de risco R(w) da 
Eq. (2.72) em dois aspectos desejáveis: 

l. Ele não depende de forma explícita da função de distribuição desconhecida P. AX. d). 

2, Em teoria, ele pode ser minimizado em relação ao vetor de peso w. 


Suponha que Wen È Fix. Won) representem o vetor de peso e o mapeamento correspondente que 
minimiza o funcional de risco empírico А. (м) da Eq. (2.74). Analogamente, suponha que w, е 
F(x, w,) representem o vetor de peso e o mapeamento correspondente que minimizam o funcional 
real de risco R(w) da Eq. 2.72. Tanto Wap COMO м, pertencem ао espaço de pesos Y. O problema 
que devemos considerar agora são as condições sob as quais o mapeamento aproximado Fx, wo) 
está “próximo” do mapeamento desejado F(x, w ), como medido pelo descasamento entre RW amp) 
с R(w.). 

Para um w = w*, o funcional de risco R(w*) determina a esperança matemática de uma vari- 
ável aleatória definida por 


7_.= Ца, Fix, w*)) (2.77) 


O funcional de risco empírico A,,, (w*), ao contrário, é a média (aritmética) empírica da variável 
aleatória Z „. De acordo com а ¿el dos grandes números, que é um dos principais teoremas da teoria 
das probabilidades, em casos gerais constatamos que, quando o tamanho N da amostra de treina- 
mento é feito infinitamente grande, a média empírica da variável aleatória Z,, converge para о 
seu valor esperado, Esta observação fornece uma justificativa teórica para o uso do funcional de 
risco empírico R (w) no lugar do funcional de risco R(w). Entretanto, apenas porque a média 
empirica de Z. converge para o seu valor esperado, não há razão para se esperar que o vetor de 


118 Rrors Neurais 


pesos W que minimiza o funcional de risco empírico R, (w) também minimize o funcional de 
risco Aw). 

Podemos satisfazer estes requisitos de uma forma aproximada procedendo como descrito a 
seguir. Sc o funcional de risco empirico R (УУ) aproxima o funcional de risco original R(w) unifor- 
memente em w com uma precisão e, então o minimo de RAW) se desvia do minimo de R(w) por 
um valor que não excede 2e. Formalmente, isto significa que devemos impor uma condição restritiva, 
tal que para qualquer we Wee > 0, valha a relação probabilistica (Vapnik, 1982) 


P(sup R(w) Rn (WK >€)— quando № — co (2.78) 
Quando a Eg. (2.78) é satisfeita, dizemos que ocorre uma convergência uniforme no vetor de peso 


w do risco empírico médio, para o seu valor esperado. De forma equivalente, desde que, para uma 
precisão predeterminada € qualquer, possamos afirmar que valha a desigualdade 


Pisup|R(w) — Ry (w)» €) <a (2.79) 
para algum « > 0, então, como consequüéncia, vale a seguinte desigualdade: 

PiR(w..)- RW) > Ze) ca (2.80) 

Em outras palavras, se valer a condição (2.79), então com probabilidade de no mínimo (1 — c), a 

solução F(x, м.) que minimiza o funcional de risco empírico R (w) resultará em um risco real 

RW 2) que se desvia do verdadeiro risco real minimo possivel R(w. à por um valor que nào excede 

ZE, De fato, a condição (2.79) implica que, com probabilidade (1 — o), as duas desigualdades sc- 

guintes são satisfeitas simultaneamente ( Vapnik, 1982): 

RW 7 RLW JS 6 (2.81) 

RLW.) - (ме) < є (2.82) 

Estas duas equações definem as diferenças entre os funcionais de risco real e de risco empírico em 


W=w__e w=w respectivamente. Além disso, como w__ , € W, SãO os pontos minimos de R „С“ 
e R(w), r respectivamente, segue que 


RW) ER Ow) (2.83) 


Somando as desigualdades (2.81) e (2,82) e então utilizando (2.83), podemos escrever a seguinte 
desigualdade 


Rw} - Rw} < 26 (2,54) 
Além disso, como as desigualdades (2.81) e (2.82) são satisfeitas simultaneamente com probabili- 
dade (1 — 0), então a desigualdade (2.84) também o será. Podemos, portanto, afirmar que com 
probabilidade a vale a desigualdade 


RUW q) — R(w,) > 2e 


que € uma reformulação de (2.80). 
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Estamos agora preparados para formalizar o princípio da minimização do risco empírico em 
trés partes inter-relacionadas (Vapnik, 1982, 1998): 


1. No lugar do risco funcional Aw), construa o funcional de risco empírico 


Ё.) = ца, F(x,, wy) 


baseado no conjunto de treinamento de exemplos iid 
(xd), ѓа |, ZN 
2. Suponha que Won Fepresente O vetor de pesos que minimiza o funcional de risco empirico 
R CW) sobre o espaço de pesos W. Então R(w,  ) converge em probabilidade рага o minimo 
valor possível do risco real R(w), we W, quando o tamanho N da amostra de treinamento é 
feito infinitamente grande, desde que o funcional de risco empírico А, Av convirja uniforme- 


mente para o funcional de risco real A(w). 
3. A convergência uniforme como definida por 


P(sup| R(w) — Rmi quando N — co 
wa 
é uma condição necessária e suficiente para a consistência do principio da minimização do 
risco empírico. 


Para uma interpretação fisica deste importante princípio, oferecemos a seguinte observação. Antes 
do treinamento de uma máquina de aprendizagem, todas as funções aproximativas são igualmente 
prováveis. Na medida em que avança o treinamento da máquina de aprendizagem, aumenta a proba- 
bilidade daquelas funções aproximativas F(x w) que são consistentes com o conjunto de dados de 
treinamento f(x, d); ^. Quando o tamanho № do conjunto de dados de treinamento cresce e conse- 
quentemente o espaço de entrada se torna “densamente” povoado, o ponto minimo do funcional de 
risco empirico RAW) converge em probabilidade para o ponto minimo do funcional de risco ver- 


dadeiro R(w). 


Dimensào V-C 


А teoria da convergência uniforme do funcional de risco empírico R,.. (w) para o funcional de risco 
real R(w) inclui limites na taxa de convergência, que são baseados em um importante parâmetro 
denominado a dimensão Fapnik-Chervonenkis, ou simplesmente dimensão РС, denominada assim 
em homenagem a seus criadores, Vapnik e Chervonenkis (1971). A dimensão V-C é uma medida da 
capacidade ou poder de expressão da família de funções de classificação realizadas pela máquina 
de aprendizagem. 

Para descrever o conceito da dimensão V-C em uma forma adequada para os nossos propósi- 
tos, considere um problema de classificação de padrões binários, para o qual a resposta desejada é 
escrita como de (0, 1}. Usamos o termo dicotomia para nos referirmos a uma função de classifica- 
ção binária ou regra de decisão. Suponha que F represente o conjunto de dicotomias implementadas 
por uma máquina de aprendizagem, ou seja, 


F= (Fix, w): we W, F: RTW — (0, 15) (2.85) 
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Suponha que É represente o conjunto de N pontos no espaço m-dimensional Æ de vetores de entra- 
da, ou seja, 


LE Bilde) (2.86) 


Uma dicotomia implementada pela máquina de aprendizagem particiona £ em dois subconjuntos 
disjuntos £, e £, de tal forma que nós podemos escrever 


O paraxe, 


, 2.87 
| paraxe X, E 


F(x,w)- | 
Considere que A (É) represente o número de dicotomias distintas implementadas pela máquina de 
aprendizagem, e А (Гу represente o máximo de A {+} sobre todo £ com |£| = /, onde |F| é o 
nümero de elementos de £. Dizemos que E é particionado por F se A (F) = 277, isto é, se todas as 
dicotomias possiveis de & puderem ser induzidas por funções em F. Referimo-nos a A (/) como a 
função de crescimento. 


Exemplo 2.1 

A Figura 2.23 ilustra um espaço de entrada bidimensional X consistindo de quatro pontos Xe Xe X EE, Às 
fronteiras de decisão das funções F e F., indicadas na figura, correspondem às classes (hipóteses) O e | sendo 
verdadeiras, respectivamente. Da Fig. 2.23 vemos que a função F, induz a dicotomia 


d = = Ix, X „hF, Е іх, i 


FIGURA 2.23 Diagrama para 
o Exemplo 2,1 





Por outro lado, a função F, induz a dicotomia 
De DF, = xo x4, ЖУ, = x, 
Com o conjunto É consistindo de quatro pontos, a cardinalidade [| = 4, Assim, 


A (P) = 2* = 16 
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Retornando à discussão geral delineada pelo ensemble F de dicotomias na Eq. (2.85) e o conjunto 
correspondente de pontos Æ na Eq. (2.86), podemos agora definir formalmente a dimensão V-C 
como (Vapnik e Chervonenkis, 197]; Kearns e Vazirani, 1994: Vidyasagar, 1997; Vapnik, 1998) 


A dimensão VC de um conjunto de dicotomias F é a cardinalidade do maior conjunto E particionado 
por +. 


Em outras palavras, a dimensão V-C de F, escrita como VCdim(), é o maior N tal que A (№) = 2*. 
Dito em termos mais familiares, a dimensão V-C do conjunto de funções de classificação (F(x, w): 
we И) o número máximo de exemplos de treinamento que podem ser aprendidos pela máquina 
sem erro, para todas as rotulações possíveis das funções de classificação. 


Exemplo 2.2 


Considere uma regra de decisão simples em um espaço m-dimensional 3€ de vetores de entrada, que é descrito 
por 


F: y= pw + bj (2.88) 
onde x é um vetor de pesos m-dimensional e b é um bias. A função da ativação p é uma função de limiar; isto é, 


ji l, кеб 
pas D rel 
A dimensão V-C da regra de decisão na Eq. (2.88) é dada por 
УСП) = m + 1 (2.89) 


Para demonstrar este resultado, considere as situações descritas na Fig. 2.24 relativas a um espaço de entrada 
bidimensional (i.e, m = 2). Na Fig. 2.24a, temos três pontos х. x, e x, Trés diferentes possibilidades de 
rotulação destes pontos estão incluidas na Fig. 2.24a, da qual vemos facilmente que um máximo de trés linhas 
podem separar estes pontos. Na Fig. 2.24b, temos os pontos X,, X,, X, € x, com os pontos x, e x, rotulados 


como е os pontos x, € x, rotulados como 1. Desta vez, entretanto, vemos que os pontos x, € x, não podem ser 


ху Classe I 


: Wë e x, Classe 0 
Е) 


- ү" 





(Б) 


FIGURA 2.24 Um par de distribuições de dados bidimensionals para o exemplo 2.2 
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separados de x, e x, por uma linha. À dimensão V-C da regra de decisão descrita na Eq. (2.88) com m = 2 é 
portanto 3, o que está de acordo com a fórmula da Eq. (2.89). 
= 


Exemplo 2.3 


Como a dimensão V-C fornece uma medida da capacidade de um conjunto de funções (indicadoras) de classi- 
ficação, podemos ser levados a esperar que uma máquina de aprendizagem com muitos parámetros livres teria 
uma alta dimensão V-C, enquanto que uma máquina de aprendizagem com poucos parâmetros livres teria uma 
dimensão V-C baixa. Agora apresentamos um contra-exemplo! para esta afirmação. 

Considere a família de funções indicadoras de um único parâmetro, definida por 


Fix, a) = sinalísen(ax), ae В 


onde sinal(*) é a função sinal. Suponha que escolhemos um número qualquer e o objetivo seja encontrar A 
pontos que possam ser separados. Esta exigência é satisfeita pelo conjunto de funções f(x, a) escolhendo-se 


Para separar estes pontos de dados em duas classes determinadas pela sequência 


dado d 


a 


de 14,1) 


é suficiente que o parámetro a seja escolhido de acordo com a fórmula: 


а=! ica, 


Concluimos, assim, que a dimensão V-C da familia de funções indicadoras f(x, a) com um único parâmetro 
livre a é infinita. 
|| 


Importância da dimensão V-C e da sua Estimação 


A dimensão V-C é um conceito puramente combinatório que nào tem conexão com a noção geomé- 
inca de dimensão. Ela desempenha um papel central na teoria de aprendizagem estatística como 
será mostrado no material apresentado nas próximas duas suhseções. À dimensão V-C é também 
importante do ponto de vista de projeto. Grosso modo, o número de exemplos necessários para se 
aprender de maneira confiável uma classe de interesse é proporcional à dimensão V-C daquela 
classe. Conseqüentemente, uma estimativa da dimensão V-C é de fundamental importância, 

Em alguns casos, a dimensão V-C é determinada pelos parâmetros livres de uma rede neural. 
Na matoria dos casos práticos, entretanto, é dificil calcular a dimensão V-C por meios analíticos. 
Apesar disso, os limites da dimensão V-C de redes neurais são frequentemente tratdweis, Neste 
contexto, os dois resultados seguintes são de especial interesse": 


1. Suponho que N represente uma rede alimentada adiante arbitrário constituida de neurônios 
com uma função de ativação de limiar (Heaviside): 
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| 720 
=| 


O, vet 


A dimensão VC de N é O(WlogW) onde W g o numero total de parámetros livres da rede. 
Este primeiro resultado se deve a Cover (1968) e Baum e Haussler (1989). 


2. Suponhaque.N represente uma rede de mültiplas camadas alimentada adiante cujos neurônios 
utilizam uma função de ativação sigmolde 


туз 1++єехр(—1ї] 


A dimensão VC de N é ОГИ), onde W é o número fatal de parámetros livres da rede. 


Este segundo resultado se deve a Koiran e Sontag (1996). Eles chegaram a este resultado primeiro 
mostrando que as redes que consistem de dois tipos de neurónios, um linear e o outro utilizando 
uma função de ativação de limiar, já têm uma dimensão V-C proporcional a W°. Este resultado é 
surpreendente, pois uma rede puramente linear tem uma dimensão V-C proporcional a W como 
mostrado no Exemplo 2.2, enquanto que uma rede neural puramente de limiar tem uma dimensão 
V-C proporcional а Flog em virtude do resultado 1, O resultado desejado relativo à rede neural 
sigmóide é então obtido invocando-se duas aproximações. Primeiro, os neurônios com funções de 
ativação de limiar são aproximados pelos neurônios sigmóides com pesos sinápticos grandes. Se- 
gundo, os neurônios lineares são aproximados por neurônios sigmóides com pesos sinápticos pe- 
quenos. 

O ponto importante a notar aqui é que as redes de múltiplas camadas alimentadas adiante tem 
uma dimensão V-C finita. 


Limites Construtivos Independentes de Distribuição 
para a Habilidade de Generalizacáo de Máquinas de Aprendizagem 


Neste ponto da discussão, achamos instrutivo considerar o caso especifico da classificação de pa- 
drões binários, para o qual a resposta desejada é definida por de (0, 1}. De uma forma correspon- 
dente, a função de perda tem apenas dois valores possíveis como mostrado por 


O se Fir,w)=d 
dium 2.90 
Matix w)) | caso contrário ( ) 


Sob estas condições, o funcional de risco R(w) e o funcional de risco empírico К (М) definidos 
pelas Eqs. (2.72) e (2.74), respectivamente, assumem as seguintes Interpretações: 


* O funcional de risco R(w) é a probabilidade de erro de classificação (Le., a taxa de erro), 
representada por P(w). 

+ O funcional de risco empírico Remi) éoerro de ireinamento (i.e, a frequência de erros feitos 
durante a sessão de treinamento), representado por v(w). 
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Agora, de acordo com a lei dos grandes números (Gray e Davisson, 1986), a frequência empírica 
de ocorréncia de um evento converge quase certamente para a probabilidade real daquele evento 
quando o número de tentativas (supostamente independentes e identicamente distribuidas) é feito 
infinitamente grande. No contexto desta discussão, este resultado significa que para qualquer vetor 
de peso w, que não dependa do conjunto de treinamento, € para uma precisão e > 0, vale a seguinte 
condição (Vapnik, 1982): 


P(|P(w) = v(w)| > €) > O quando N— = (2.91) 


onde N é o tamanho do conjunto de treinamento. Note, entretanto, que a condição (2.91) nào impli- 
ca que a regra de classificação (i.e, um vetor de peso particular w) que minimiza o erro de treina- 
mento v(w) também minimize a probabilidade de erro de classificação P(w). Para um conjunto de 
treinamento de tamanho N suficientemente grande, a proximidade entre v(w) e P(w) é conseqüén- 
cia de uma condição mais forte, que estipula que vale a seguinte condição para qualquer є > O 
(Vapnik, 1982): 


P(sup|P(w) - vw) > €) — 0. quando N = (2.92) 


Neste caso, falamos de convergência uniforme da freqüéncia de erros de treinamento para a proba- 
bilidade que v(w) = P(w). 

A noção de dimensão V-C fornece um limite para a taxa de convergência uniforme. Especifi- 
camente, para o conjunto de funções de classificação com dimensão V-C A, vale a seguinte desigual- 
dade (Vapnik, 1982, 1998): 


TeN Y ; 
P(sup| (v) vim) < 26%) exp(-e №) (2.93) 


onde N é o tamanho da amostra de treinamento e e é a base do logaritmo natural. Queremos tornar 
о lado direito da desigualdade (2.93) pequeno para N grande de modo a obter convergência unifor- 
me. O fator exp(—e'N) é útil neste sentido, pois ele decai exponencialmente com o aumento de №. О 
fator restante (2eN/A representa um limite para a função de crescimento A (/) para a familia de 
funções Ф = (Fix, w) we W} para/z h 2 1 como obtido pelo lema de Saner! Desde que esta 
função não cresça rápido demais, o lado direito irá a zero quando N vai a infinito; esta exigência é 
satisfeita se a dimensão VC A for finita. Em outras palavras, uma dimensão V-C finita é uma condi- 
ção necessária e suficiente рага a convergência uniforme do principio da minimização do risco 
empirico. Se o espaço de entrada Y tiver cardinalidade finita, qualquer familia de dicotomias Y terá 
dimensão VC finita em relação a 3X, embora o inverso não seja necessariamente verdadeiro. 
Suponha que ct represente a probabilidade de ocorrência do evento 


sup P(w)- v(w) ze 


Então, com probabilidade 1 — б, podemos afirmar que, para todos os vetores de pesos we W, vale 
a seguinte desigualdade: 


P(w) = v(w) + € (2,94) 


Utilizando o limite descrito pela Eq. (2.93) e a definição para a probabilidade с, devemos então 
fixar 
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2eN Y | 
= (m) exp(-e€ №) (2.95) 


Suponha que e (N, л, ct) represente o valor especial de є que satisfaz a Eq. (2.95). Dessa forma, 
facilmente obtemos o seguinte resultado importante (Vapnik, 1992): 


Fer Fax Tao 
h 2N | 
|— lod 27) 1 - —loga 2,96 
Y | h NU c 
Referimo-nos a e (N, A, 0) como um intervalo de crença, cujo valor depende do tamanho N da 
amostra de treinamento, da dimensão V-C h e da probabilidade б. 
O timite descrito em (2,93) com e = e (№, A, о) é alcançado no pior caso P(w)= 1, mas não, 


infelizmente, para P(w) pequeno, que na prática é o caso de interesse. Para P(w) pequeno, um limite 
mais útil é obtido considerando-se uma modificação da desigualdade (2.93) como segue (Vapnik, 


1982, 1998): 
|P(w) — v(w) (22) | Få Ex) 
H sup 4 Piw) s e т h E 4 (2.97) 


Na literatura, são reportados diferentes resultados para o limite em (2.97), dependendo de qual 
forma particular de desigualdade é utilizada para a sua derivação. Apesar disso, todos eles têm uma 


forma similar. De (2.97) segue que com probabilidade | — ct e simultaneamente para todo we W 
(Vapnik, 1992, 1998), 


e CV, A O) = 


P(w) € v(w) + e (М, А, ct, v) (2.98) 


onde e (№, A, ct, v) é um novo intervalo de crença definido como segue, em termos do intervalo de 
crença anterior, є (N, й, at) (veja o Problema 2.25): 


^ + | 
ља) haf d (2.99) 


Este segundo intervalo de crença depende do erro de treinamento v(w). Рага v(w) = O ele se reduz à 
forma especial 


€(N,h,0,0)= de (N,h,01) (2.100) 
Podemos agora resumir os dois limites que derivamos para a taxa de convergéncia uniforme: 
1. Em geral, temos o seguinte limite para a taxa de convergência uniforme: 
P(w) < viw) + є (№, А, at, v) 


onde e (№, A, at, v) é definido como na Eq. (2.99). 
2. Para um pequeno erro de treinamento v(w) próximo a zero, temos 


Рм)  v(w) + ФЕ №, А, с) 
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que fornece um limite razoavelmente preciso para o caso real de aprendizagem. 
3. Para um erro de treinamento v (w) grande próximo à unidade, temos o limite 


Plw)= viw)+e,(N, A, 01) 


Minimizacáo Estrutural de Risco 


O erro de treinamento é a frequência de erros cometidos por uma máquina de aprendizagem com 
um vetor de peso w durante a sessão de treinamento. Analogamente, o erro de generalização é 
definido como a frequência de erros cometidos pela máquina quando é testada com exemplos não 
vistos anteriormente. Assume-se aqui que os dados de teste são retirados da mesma população de 
onde foram retirados os dados de treinamento. Considere que estes dois erros são representados por 
V, AW) € v... (W), respectivamente. Note que v... (w) ё o mesmo que vw} utilizado na subseção 
anterior; usamos v(w) aqui para simplificar a notação. Seja /t a dimensão V-C de uma familia de 
funções de classificação 1х, м): we W em relação ao espaço de entrada 3C. Então, levando em 
consideração a teoria sobre a taxa de convergência uniforme, podemos afirmar que com probabili- 
dade | — & para um número de exemplos de treinamento N > & e simultaneamente para todas as 
funções de classificação Fx, w), o erro de generalização VU) € menor que um risco garantido 
definido pela soma de um par de termos antagónicos (Vapnik, 1992, 1998) 

vo (w)^v 


peat Irena 


(м) + e (Nh Ov...) (2.101) 


Irem 
onde o intervalo de crença e (№, А, at, v...) É definido pela Eq. (2.99). Para um número fixo А de 
exemplos de treinamento, o erro de treinamento decresce monotonamente com o aumento da capa- 
cidade ou da dimensão V-C hr, enquanto que o intervalo de crença aumenta monotonamente. Conse- 
qüentemente, tanto o risco garantido como o erro de generalizacáo passam por um minimo. Estas 
tendências são ilustradas de modo genérico na Fig. 2.25, Antes de alcançar o ponto minimo, o 
problema de aprendizagem é superdeterminado, significando que a capacidade da máquina ^ é 
pequena demais para a quantidade de detalhes de treinamento. Além do ponto minimo, o problema 
de aprendizagem é subdeterminado porque a capacidade da máquina é grande demais para a quan- 
tidade de dados de treinamento, 
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O desafio ao se resolver um problema de aprendizagem supervisionada é, portanto, realizar 
o melhor desempenho de generalização adequando-se a capacidade da máquina com a quantida- 
de disponivel de dados de treinamento para o problema em questão, O método de minimização 
estrutural de risco fornece um procedimento indutivo para alcançar este objetivo tornando a 
dimensão V-C da máquina de aprendizagem em uma variável de controle (Vapnik, 1992, 1998). 
Para sermos mais específicos, considere um conjunto de classificadores de padrões {F(x, м): w 
€ Wi e defina uma estrutura aninhada de n destas máquinas 


F, = (Fix, w); we Wh kE 12,0 (2.102) 
tal que tenhamos (veja a Fig. 2.25) 
PEREN (2.103) 


onde o simbolo c significa “estã contido em”. Correspondentemente, as dimensões V-C dos classi- 
ficadores de padrões individuais satisfazem a condição 


A ss. Sh, (2.104) 
o que implica que a dimensão V-C de cada classificador de padrões é finita. Então, o método de 
minimização estrutural de risco pode proceder como segue: 


* Orisco empírico (i.e, o erro de treinamento) para cada classificador da padrões é minimizado. 

+ Oclassificador de padrões F" com o menor risco garantido é identificado; esta máquina par- 
ticular fornece o melhor compromisso entre erro de treinamento (i.e, a qualidade de aproxi- 
mação dos dados de treinamento) e o intervalo de crença (Le., à complexidade da função 
aproximativa) que competem entre si. 


O nosso objetivo é encontrar uma estrutura de rede tal que o decréscimo da dimensão V-C ocorra às 
custas do menor aumento possível no erro de treinamento. 

O principio da minimização estrutural de risco pode ser implementado de várias formas. Po- 
demos variar a dimensão V-C A, por exemplo, variando o número de neurônios ocultos, Especifica- 
mente, avaliamos um ensemble de redes de múltiplas camadas totalmente conectadas para frente, 
nas quais o número de neurônios em uma das camadas ocultas é incrementado monotonamente. O 
princípio da minimização estrutural de risco afirma que a melhor rede deste conjunto é aquela para 
a qual o risco garantido é o minimo. 

A dimensão V-C não é apenas central para o principio da minimização estrutural do risco, mas 
também para um modelo igualmente poderoso, chamado de provavelmente aproximadamente cor- 
reto (PAC). Este modelo, discutido na próxima seção, completa a última parte deste capítulo que 
trata dos aspectos probabilisticos e estatísticos da aprendizagem. 


2.15 MODELO DE APRENDIZAGEM PROVAVELMENTE 
APROXIMADAMENTE CORRETO 


O modelo de aprendizagem provavelmente aproximadamente correto (PAC) é creditado a Valiant 
(1984). Como o nome implica, o modelo PAC é uma estrutura probabilistica para o estudo de 
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aprendizagem e generalização em sistemas de classificação binária. Ele está intimamente relacio- 
nado à aprendizagem supervisionada. 

Começamos com um ambiente #. Um conjunto de © é chamado de um conceito e um conjun- 
to de subconjuntos de # é chamado de uma classe de conceitos, Um exemplo de um conceito é um 
objeto do domínio de interesse, juntamente com um rótulo de classe. Se o exemplo for um membro 
do conceito, referimo-nos a ele como um exemplo positivo, se o objeto nào for um membro do 
conceito, referimo-nos a ele como um exemplo negativo. Um conceito para o qual são fornecidos 
exemplos é chamado de um conceito alvo. Podemos adquirir uma seqüéncia de dados de treinamen- 
to de comprimento N para um conceito alvo c como mostrado por 


F= f(x, cx), (2.105) 


а qual pode conter exemplos repetidos. Os exemplos x, X... x, São retirados aleatoriamente do 
ambiente ©, de acordo com uma distribuição de probabilidade fixa mas desconhecida. Os seguintes 
pontos são também dignos de nota na Eq. (2,105): 


* Oconceito-alvo c(x) é tratado como uma função de Æ para 40, 1}. Além disso, assume-se que 
ex) seja desconhecido, 

* Normalmente, assume-se que os exemplos sejam estatisticamente independentes, o que signi- 
fica que a densidade de probabilidade conjunta de quaisquer dois exemplos, digamos, X CX,C 
igual ao produto de suas funções de densidade de probabilidade individuais. 


No contexto de nossa terminologia precedente, o ambiente @ pode ser identificado como o espaço 
de entrada de uma rede neural e o conceito-alvo pode ser identificado como a resposta desejada da 
rede. 

O conjunto de conceitos derivados do ambiente Y é denominado espaço de conceitos €, O 
espaço de conceitos pode conter, por exemplo, “a letra A”, “a letra B" e assim por diante. Cada um 
desses conceitos pode ser codificado diferentemente para gerar um conjunto de exemplos positivos 
e um conjunto de exemplos negativos. Na estrutura de aprendizagem supervisionada, contudo, te- 
mos um outro conjunto de conceitos. Uma máquina de aprendizagem tipicamente representa um 
conjunto de funções, com cada função correspondendo a um estado específico. Por exemplo, a 
máquina pode ser projetada para reconhecer “a letra A”, “a letra B" e assim por diante. O conjunto 
de todas as funções (Le., conceitos) determinados pela máquina de aprendizagem é denominado 
espaço de hipóteses 8. O espaço de hipóteses pode ou não ser igual ao espaço de conceitos. De 
certa forma, as noções de espaço de conceitos e espaço de hipóteses são análogas à função f(x) e à 
função aproximativa Fix, w), respectivamente, que foram utilizadas na seção anterior. 

Suponha então que nos é dado um conceito-alvo c(x) e 6, que assume apenas o valor O ou 1. 
Desejamos aprender este conceito por meio de uma rede neural, treinando-a com o conjunto de 
dados Y definido pela Eq. (2.105). Suponha que g(x) e £ represente a hipótese correspondente ao 
mapeamento de entrada-saida que resulta do seu treinamento. Uma forma de avaliar o sucesso do 
processo de aprendizagem é medindo-se o quão репо a hipótese р(х) está do conceito-alvo cix). 
Naturalmente serão cometidos erros, fazendo-se g(x} + c(x). À razão para a ocorrência de erros é 
que estamos tentando aprender uma função com base em informação limitada disponível sobre 
aquela função. A probabilidade de erro de treinamento é definida por 


v a= Р(х € E: glx) v с(х)) (2.106) 
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A distribuição de probabilidade nesta equação deve ser a mesma que é responsavel pela geração dos 
exemplos. O objetivo da aprendizagem PAC € assegurar que v, Seja normalmente pequeno. O 
dominio que está disponível para o algoritmo de aprendizagem é controlado pelo tamanho N da 
amostra de treinamento Y. Adicionalmente, fornece-se ao algoritmo de aprendizagem dois parámetros 
de controle: 


«+ Parámetro de erro є €(0,1]. Este parámetro especifica o erro permitido em uma boa aproxi- 
mação do conceito-alvo cix) pela hipótese р(х). 

e Parâmetro de crença à e (0,1). Este segundo parâmetro controla a probabilidade de se cons- 
truir uma boa aproximação. 


Podemos assim visualizar o modelo de aprendizagem PAC como representado na Fig. 2,26. 
Com esta fundamentação, podemos agora formalmente formular o modelo de aprendizagem 
PAC (Valiant, 1984; Kearns e Vazirani, 1994: Vidyasagar, 1997): 


Parirnetros. de controle 


e. 6 








Amestra de Saren nd 
Hm cx, | Algoritmo de Hipótese FIGURA 2.26 Diagrama em 
TE E bloco ilustrando o modelo de 
aprendizagem PAC 


Considere que Є seja uma classe de conceitos sobre o ambiente £, Diz-se que a classe de conceitos 
E pode ser aprendida por PAC se existir um algoritmo S com a seguinte propriedade: para todo 
conceito-alvo ce E, para toda distribuição de probabilidade em X e para todo 0 <e< 1/2 e 0 < 6 
= 1/2, se for fornecido ao algoritmo de aprendizagem £ o conjunto de exemplos de treinamento 
LE li E, C( X, y. eos parámetros є € à então, com probabilidade de no minimo 1 — à, o algoritmo 
ei Esta probabilidade engloba os 
exemplos aleatórios retirados do conjunto 7 e qualquer alcatoriedade interna que possa existir по 
algoritmo de aprendizagem $. O tamanho da amostra А deve ser maior que uma função de à e €. 


de aprendizagem ER produzirá uma hipótese g com erro v 


Em outras palavras, desde que o tamanho N da amostra de treinamento Y seja suficientemente 
grande, após a rede neural ter sido treinada com aquele conjunto de dados, é “provável” que o 
mapeamento de entrada-saida calculado pela rede seja “aproximadamente correto”, Note que, em- 
bora haja uma dependência em б e e, o número de exemplos, N, não é necessariamente dependente 
do conceito-alvo c ou da distribuição de probabilidade relativa a X. 


Complexidade da Amostra 


Na teoria de aprendizagem PAC, uma questão de particular interesse com implicações práticas é a 
questão da complexidade da amostra. О enfoque nesta questão está sobre quantos exemplos aleató- 
rios devem ser apresentados ao algoritmo de aprendizagem para que ele adquira informação sufici- 
ente para aprender um concerto-alvo desconhecido c escolhido da classe de conceitos €. Ou ainda, 
quão grande deve ser o tamanho N do conjunto de treinamento Fº? 
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A questão da complexidade da amostra está intimamente ligada à dimensão V-C, Entretanto, 
antes de prosseguirmos sobre esta questão, precisamos definir a noção de um conceito consistente. 
Seja Y = [(x,.d, b um conjunto qualquer de exemplos rotulados, onde cada x, € # e cada d € (0, 
1). Seja c um conceito alvo sobre o ambiente 2, Então, dizemos que o conceito с é consistente com 
o conjunto de treinamento J (ou, de forma equivalente, T é consistente com c) se para todo | SiS 
М tivermos «(x ) = а (Kearns e Vazarini, 1994). Por outro lado, contanto que a aprendizagem PAC 
seja considerada, não é o tamanho do conjunto de funções de entrada-saida calculável por uma rede 
neural que é crucial, mas sim a dimensão V-C da rede. Mais exatamente, podemos formular um 
resultado fundamental, em duas partes (Blumer e al., 1989; Anthony e Biggs, 1992; Vidyasagar, 
1997): 


Considere uma rede neural com uma dimensão М-С finita й 2 1. 
1. Qualquer algoritmo de aprendizagem consistente para aquela rede neural € um algoritmo de 
aprendizagem PAC. 
2. Existe uma constante А tal que um tamanho suficiente do conjunto de treinamento Y para 
qualquer algoritmo deste tipo é calculado por 


м= E (1. oel) (2.107) 


onde € é o parámetro de erro e à é o parâmetro de crença. 


A generalidade deste resultado é impressionante: é aplicável a um processo de aprendizagem super- 
visionada independentemente do tipo de algoritmo de aprendizagem utilizado e da distribuição de 
probabilidade responsável pela geração dos exemplos rotulados. É a prande generalidade deste 
resultado que o tornou um tema de intenso interesse científico na literatura de redes neurais. A 
comparação de resultados previstos para limites de medidas baseadas na dimensão V-C com resul- 
tados experimentais revelam uma grande discrepância numérica. De certo modo, isto não deveria 
surpreender, pois a discrepância é apenas um reflexo da natureza independente de distribuição € 
pior caso das medidas teóricas e, em média, sempre podemos obter melhores resultados. 


Complexidade Computacional 


Uma outra questão de interesse primordial na aprendizagem PAC é à complexidade computacional. 
Esta questão se refere à eficiência computacional de um algoritmo de aprendizagem, Mais precisa- 
mente, a complexidade computacional lida com o pior caso de “tempo de processamento” necessá- 
rio para treinar uma rede neural (máquina de aprendizagem), dado um conjunto de exemplos rotu- 
lados de tamanho finito №. 

Em uma situação prática, o tempo de processamento de um algoritmo depende naturalmente 
da velocidade com a qual os cálculos envolvidos são realizados. De uma perspectiva teórica, entre- 
tanto, a intenção é obter uma definição de tempo de processamento que seja independente do dispo- 
sitivo utilizado para realizar os cálculos. Tendo em mente esta consideração, o tempo de 
processamento, e consequentemente a complexidade computacional, é medido normalmente em 
termos do número de operações (adições, multiplicações e armazenamentos) necessárias para reali- 
zar a computação. 

Estimando a complexidade computacional de um algoritmo de aprendizagem, queremos saber 
como ela varia com o tamanho m do exemplo (Le., o tamanho da camada de entrada da rede neural 
treinada). Para que, neste contexto, o algoritmo seja eficiente do ponto de vista computacional, o 
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tempo de processamento deve ser O(m") para um inteiro fixo r 2 1. Neste caso, diz-se que o tempo 
de processamento cresce de forma polinomial com m, e o próprio algoritmo é denominado algoritmo 
de tempo polinomial. Tarefas de aprendizagem realizadas por um algoritmo de tempo polinomial 
são normalmente consideradas “fáceis” (Anthony e Biggs, 1992). 

О outro parâmetro que requer atenção é o parámetro de erro e. Enquanto que, no caso da 
complexidade da amostra, o parâmetro « é fixo mas arbitrário, para estimar a complexidade 
computacional de um algoritmo de aprendizagem queremos saber como ela varia com e. Intuitiva- 
mente, esperamos que quando e é reduzido, a tarefa de aprendizagem estudada se torne mais dificil. 
Conseqüentemente, deve-se impor alguma condição para o tempo que o algoritmo leva para produ- 
zir uma saida provavelmente aproximadamente correta. À condição apropriada para uma computa- 
ção eficiente é que o tempo de processamento seja polinomial em 1/€. 

Juntando estas considerações, podemos fazer a seguinte afirmação formal sobre a complexi- 
dade computacional (Anthony e Biggs, 1992): 


Um algoritmo de aprendizagem é eficiente, do ponto de vista computacional, em relação ao parâmetro 
de erro є, ao tamanho m do exemplo e ao tamanho N do conjunto de treinamento, se o seu tempo de 
processamento for polinomial em N е se existir um valor de N,/8, €) suficiente para a aprendizagem 
PAC que seja polinomial tanto em m como em e —'. 


2.16 RESUMO E DISCUSSÃO 


Neste capítulo, discutimos algumas questões importantes relativas às muitas facetas do processo de 
aprendizagem no contexto de redes neurais. Com isso, estabelecemos os fundamentos para grande 
parte do material restante deste livro. As cinco regras de aprendizagem, aprendizagem por correção 
de erro, aprendizagem baseada em memória, aprendizagem hebbiana, aprendizagem competitiva e 
aprendizagem de Boltzmann são básicas para o projeto de redes neurais. Alguns destes algoritmos 
requerem a utilização de um professor c outros não. O ponto importante é que estas regras nos 
permitem ir muito além do alcançável por filtros adaptativa lineares, tanto em termos de capacidade 
como em universalidade. 

No estudo da aprendizagem supervisionada, uma condição fundamental é a existência de um 
“professor” capaz de fornecer correções exatas para as saidas da rede quando um erro ocorrer, como 
na aprendizagem por correção de erro; ou de “fixar” em relação ao ambiente as unidades de entrada 
e de saída livres da rede, como na aprendizagem de Boltzmann. Nenhum destes modelos é possivel 
em organismos biológicos, que não possuem as conexões nervosas reciprocas exatas necessárias 
para a retropropagação das correções de erro (em uma rede de múltiplas camadas alimentada adian- 
te), nem os meios nervosos para imposição de comportamento pelo mundo exterior. Apesar disso, à 
aprendizagem supervisionada estabeleceu-se como um paradigma poderoso para o projeto de rede 
neurais artificiais, como é demonstrado nos Capítulos de 3 a 7. 

Por outro lado, regras de aprendizagem auto-organizada (nào-supervisionada), tais como a 
aprendizagem hebbiana e a aprendizagem competitiva, são motivadas por considerações 
neurobiológicas. Entretanto, para aperfeiçoar o nosso entendimento sobre à aprendizagem auto- 
organizada, precisamos também buscar idéias relevantes na teoría da informação de Shannon. De- 
vemos mencionar aqui o principio da máxima informação mútua (Infomax) de Linsker (1988a, b), 
que fornece o formalismo matemático para o processamento de informação em uma rede neural 
auto-organizada, de uma forma até certo ponto análoga à transmissão de informação em um canal 
de comunicação. O principio Infomax e suas variantes são discutidos no Capítulo 10. 


132 Renes Meuris 


Uma discussão dos métodos de aprendizagem seria incompleta se não mencionássemos o 
modelo de aprendizagem seletiva darwiniano (Edelman, 1987, Reeke et al., 1990). A seleção é um 
princípio biológico poderoso com aplicações tanto na evolução como no desenvolvimento. Ela 
ocupa uma posição central no sistema imunológico (Edelman, 1973), que é o sistema de reconheci- 
mento biológico mais bem entendido. O modelo de aprendizagem seletiva darwiniano é baseado na 
teoria da seleção de grupo neural, Ele pressupõe que o sistema nervoso opera por uma forma de 
seleção similar à seleção natural evolutiva, mas que isto acontece dentro do cérebro durante o 
periodo de vida de cada animal. De acordo com esta teoria, as unidades operacionais básicas do 
sistema nervoso não são os neurônios isolados, mas sim grupos localizados de células fortemente 
interligadas, A pertinência de neurônios em um grupo é modificada pela alteração dos pesos sinápticos 
dos neurônios. À competição local e a cooperação entre células são claramente necessárias para 
produzir ordenação local na rede. Uma coleção de grupos neuronais é denominada repertório. Gru- 
pos em um repertório respondem melhor a padrões de entrada superpostos mas similares, devido à 
natureza aleatória do crescimento neural. Um ou mais grupos neuronais em um repertório respon- 
dem a todo padrão de entrada, assegurando assim que haja uma resposta a padrões de entrada não- 
esperados, que podem ser importantes. A aprendizagem seletiva darwiniana é diferente dos algoritmos 
de aprendizagem normalmente utilizados no projeto de redes neurais, porque ela assume que, por 
projeto, haja muitas subredes e que somente aquelas com a resposta desejada são selecionadas 
durante o processo de treinamento. 

Completamos esta discussão com alguns comentários finais sobre os aspectos estatísticos e 
probabilisticos da aprendizagem. A dimensão V-C se estabeleceu como um parâmetro central na 
teoria estatistica da aprendizagem. Ela é básica para a minimização estrutural de risco e para o 
modelo de aprendizagem provavelmente aproximadamente correto (PAC). A dimensão V-C é uma 
parie integrante da teoria relativa às chamadas máquinas de vetor de suporte, discutidas no Capitulo 
6. No Capítulo 7, discutimos uma classe de máquinas de comitê baseadas em reforço, cuja teoria 
estã fundamentada na aprendizagem PAC. 

À medida que avançarmos neste livro, haverá muitas ocasiões e boas razões para revisitar o 
material neste capitulo sobre os fundamentos dos processos de aprendizagem. 


NOTAS E REFERÊNCIAS 


1. Otero “algoritmo” é derivado do nome do matemático persa Mohammed al-Kowärisimi, 
que viveu durante o século IX e a quem se atribui o desenvolvimento das regras passo a 
passo para a adição, subtração, multiplicação e divisão de números decimais ordinários. 
Quando seu nome foi escrito em latim, tornou-se Algorismus, do qual algoritmo é deriva- 
do (Harel, 1987). 

2. A regra do vizinho mais próximo envolve uma imensa literatura; veja a coleção de antigos 
editados por Dasarathy (1991). Este livro inclui o trabalho original de Fix e Hodges (1951) 
e muitos outros artigos importantes sobre técnicas de classificação de padrões por vizinho 
mais próximo. 

3. Para uma revisão detalhada sobre sinapses hebbianas, incluindo um relato histórico, veja 
Brown et al, (1990) e Frégnac e Schulz (1994). Para material de revisão adicional, veja 
Constantine-Paton et al. (1900), 

4. Potenciagio de Longo Prazo = Evidência Fisiológica para a Sinapse Hebbiana 
Hebb (1949) nos forneceu um modo de refletir sobre os mecanismos de memória sinápticos, 
mas isto ocorreu quase um quarto de século antes que fosse obtida evidéncia experimental 
que sustentasse suas propostas. Em 1973, Bliss e Lomo publicaram um artigo descrevendo 
uma forma de modificação sináptica induzida por ativação em uma área do cérebro cha- 
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mada hipocampo. Eles aplicaram pulsos de estimulação elétrica na maior parte das vias 
que entram nesta estrutura, enquanto registravam as respostas evocadas sinapticamente. 
Após se certificarem de terem caracterizado uma morfologia de resposta básica estável, 
eles aplicaram trens de pulsos breves, de alta frequência nestas mesmas vias. Quando 
retomaram a aplicação de pulsos de teste, constataram que as respostas eram muito maio- 
res em amplitude. O mais interessante para os pesquisadores da memória foi o fato de que 
este efeito era de longa duração. Eles chamaram este fenômeno de potenciação de longo 
prazo (PLP). 

Existem agora centenas de artigos publicados anualmente sobre o fenômeno PLP, e 
sabemos muito sobre os mecanismos envolvidos. Sabemos, por exemplo, que os efeitos da 
potenciação estão restritos às vias que são ativadas. Sabemos também que а PLP apresenta 
várias propriedades associativas. Por propriedades associativas queremos dizer que exis- 
tem efeitos interativos entre vias co-ativas. Em particular, se uma entrada fraca que nor- 
malmente nào induziria um efeito PLP estiver casada com uma entrada forte, a entrada 
fraca poderá ser potencializada. Isto é denominado uma propriedade associativa, pois é 
similar às propriedades associativas dos sistemas de aprendizagem. Nos experimentos de 
condicionamento de Pavlov, por exemplo, um estimulo auditivo neutro (fraco) era associ- 
ado a um estimulo forte (alimento). A associação resultava no aparecimento de uma res- 
posta condicionda, salivação em resposta ao estímulo auditivo. 

Muito do trabalho experimental nesta área enfocou as propriedades associativas da 
PLP. A maioria das sinapses que demonstraram suportar а PLP utiliza o glutamato como 
neurotransmissor. Ocorre, entretanto, que existem vários receptores diferentes no neurônio 
pós-sináptico que respondem ao glutamato. Todos estes receptores têm propriedades dife- 
rentes, mas nós consideraremos apenas dois deles. A resposta sináptica principal é induzida 
pela ativação do receptor AMPA (estes receptores são denominados de acordo com as 
drogas às quais eles respondem mais fortemente, mas são todos receptores de glutamato). 
Quando uma resposta é registrada em um experimento PLP, ela é atribuível primariamente 
à ativação de receptores AMPA. Após a ativação sináptica, o glutamato é liberado e se liga 
aos receptores na membrana pós-sináptica. Abrem-se, então, canais iónicos, que são parte 
dos receptores AMPA, resultando em um fluxo de corrente que é a base da resposta sináptica. 

O segundo tipo de receptor de glutamato, o receptor NMDA, tem algumas proprieda- 
des interessantes. À ligação do glutamato com o receptor NMDA não é suficiente para 
abrir o canal iônico associado. Este canal se mantém bloqueado até que uma diferença de 
tensão suficientemente grande tenha sido produzida pela atividade sináptica (envolvendo 
receptores AMPA). Conseqüentemente, enquanto que os receptores AMPA são quimica- 
mente dependentes, os receptores NMDA são tanto quimicamente dependentes como tam- 
bém dependentes de tensão. Necessitamos de mais uma informação para entendermos a 
importância desta diferença. O canal iônico associado com o receptor AMPA está ligado à 
movimentação de ions de sódio (que produz as correntes sinápticas). O canal iónico ligado 
ao receptor NMDA permite que o cálcio se mova para dentro da célula, Enquanto que o 
movimento de cálcio também contribui para as correntes da membrana, a sua função prin- 
cipal é de um sinal que dispara uma cadeia de eventos que resulta em um aumento de longa 
duração na força da resposta associada com o receptor AMPA. 

Temos agora o nosso mecanismo para a sinapse hebbiana. O receptor NMDA requer 
tanto atividade pré-sináptica (liberação de glutamato) como atividade pós-sináptica. Como 
isto normalmente ocorreria? Assegurando-se que haja uma entrada suficientemente forte, 
Assim, quando associamos uma entrada fraca a uma entrada forte, a entrada fraca libera 
seu próprio glutamato, enquanto que a entrada forte assegura que haja uma diferença de 
potencial suficientemente grande para ativar os receptores NMDA associados com a sinapse 
fraca. 

Apesar de a proposta original de Hebb ter sido para uma regra de aprendizagem em 
uma única direção, as redes neurais são muito mais flexíveis se uma regra de aprendiza- 
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gem bidirecional for usada, E vantajoso se ter sinapses nas quais o peso sináptico possa ser 
tanto diminuído como aumentado. É tranquilizador saber que existe também evidência 
experimental para um mecanismo de depressão sináptica. Se entradas fracas são ativadas 
sem a ativação combinada de entradas fortes, o peso sináptico é frequentemente enfraque- 
cido. Isto é tipicamente observado na resposta à ativação de baixa frequência de sistemas 
sinápticos, e o fenómeno é chamado de depressão de longo prazo (PLP). Existe também 
alguma evidência para o que se chama de um efeito de depressão heterossináptico. En- 
quanto que a DLP é uma depressão que é restrita à entrada ativada, a depressão 
heterossináptica é restrita à entrada náo-ativada. 

A idéia de aprendizagem competitiva remonta aos trabalhos pioneiros de von der Malsburg 
(1973) sobre a auto-organização de células nervosas sensiveis à orientação no córtice 
estriado, de Fukushima (1975) sobre uma rede neural de múltiplas camadas auto-organizàvel 
conhecida como neocognitron, de Willshaw e von der Malsburg (1976) sobre a formação 
de padrões de conexões neurais por auto-organização e de Grossberg (1972, 19768,b) s0- 
bre classificação adaptativa de padrões. Também hà substancial evidência de que a apren- 
dizagem competitiva desempenhe um papel importante na formação de mapas topográti- 
cos no cérebro (Durbin et al., 1989) e о trabalho experimental recente de Ambros-Ingerson 
et al. (1990) fornece justificativa fisiológica adicional para a aprendizagem competitiva. 
A utilização de inibição lateral, como indicado na Fig. 2.4, é adaptada dos sistemas 
neurobiológicos, A maioria dos tecidos sensoriais, como a retina do olho, a cóclea do 
ouvido e os nervos sensíveis à pressão da pele, é organizada de tal forma que a estimulação 
de qualquer local produz ambição nas células nervosas vizinhas (Arbib, 1989; Fischler e 
Firschein, 1987), Na percepção humana, a inibição lateral se manifesta através de um 
fenômeno chamado de faixas de Mach, denominado assim em referência a Ernest Mach 
(1865). Se olharmos, por exemplo, para uma folha de papel metade branca e metade preta, 
veremos paralelamente à fronteira uma faixa “mais clara que o claro” no lado branco e 
uma faixa “mais escura que o escuro” no lado preto, embora, na realidade, ambas tenham 
uma densidade uniforme. As faixas de Mach não existem fisicamente; na verdade clas são 
uma ilusão de ótica, representando “sobrelevações” e “subelevações” causadas pela ação 
derivativa da inibição lateral. 

A importância da termodinâmica estatística no estudo dos mecanismos computacionais 
fo: reconhecida por John von Neumann. Isto fica evidenciado pela terceira das suas cinco 
palestras sobre a Teoria e Organização de Autómatos Complicados na University of Illinois 
em 1949, Na sua terceira palestra, sobre “Teonas Estatisticas da Informação”, von Neumann 
disse: 


Conceitos termodinâmicos provavelmente entrarão nesta nova teoria da informação, 
Há fortes indicações de que a informação é similar à entropia e de que os processos 
degenerativos da entropia se comparam aos processos degenerativos no processamento 
da informação. É provável que não se possa definir a função de um autômato, ou a sua 
eficiência, sem caracterizar о ambiente no qual ele trabalha por meio de traços estatis- 
ticos como aqueles utilizados para caracterizar um ambiente na termodinâmica. As 
variáveis estatísticas do ambiente do autómato serão, é claro, um pouco mais compli- 
cadas que a variável de temperatura da termodinâmica padrão, mas serão similares em 
caráter. 


Aparentemente, o termo “aprendizagem por reforço” foi cunhado por Minsky (1961) em 
seus estudos iniciais sobre inteligência artificial e então, de forma independente, por Waltz 
e Fu (1965), na teoria de controle. Entretanto, a idéia básica de “reforço” tem sua origem 
nos estudos experimentais de aprendizagem animal na psicologia (Hampson, 1990). Neste 
contexto, é particularmente esclarecedor recordarmos a clássica lei do efeito de Thorndike 
(Ihorndike, 1911, p244): 


10. 


11. 
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Das diversas respostas à mesma situação, aquelas que são acompanhadas ou seguidas 
de perto pela satisfação do animal serão, se o restante for igual, mais fortemente 
conectadas com a situação, de forma que, quando a situação ocorrer novamente, elas 
terão maior probabilidade de ocorrerem; aquelas que são acompanhadas ou seguidas 
de perto por desconforto para o animal, se o resto for igual, terão menor probabilidade 
de ocorrerem. Quanto maior for a satisfação ou o desconforto, maior será o reforço ou 
o enfraquecimento da ligação. 


Apesar de não ser possivel afirmar que este principio fornega um modelo completo de 

comportamento biológico, sua simplicidade e sua abordagem de senso comum o levaram 

a ser uma regra de aprendizagem influente na abordagem clássica da aprendizagem por 

reforço. 

A saida da planta é tipicamente uma variável fisica. Para controlar a planta, precisamos 

evidentemente conhecer o valor desta variável, isto é, devemos medir a saida da planta. O 

sistema utilizado para medir uma variável fisica é chamado de sensor, Por este motivo, 

para sermos precisos, o diagrama em blocos da Fig. 2.13 deveria incluir um sensor no seu 
laço de realimentagäo. Nós omitimos o sensor, o que, por implicação, significa que assu- 
mimos que a função de transferência do sensor é unitária. 

O “fenômeno da festa de coquetel” se refere à notável habilidade humana de atentar 

seletivamente para uma fonte de entrada auditiva e segui-la, em um ambiente ruidoso 

(Cherry, 1953; Cherry e Taylor, 1954). Esta habilidade se manifesta em uma combinação 

de trés processos realizados no sistema auditivo: 

* Segmentação. O sinal auditivo incidente é segmentado em canais individuais com 
cada canal provendo informação significativa sobre um ambiente do ouvinte. Dentre 
as heuristicas utilizadas pelo ouvinte para realizar esta segmentação, a focalização 
espacial talvez seja a mais importante (Moray, 1995). 

“Atenção. Diz respeito à habilidade de o ouvinte focalizar a atenção em um canal, 
enquanto bloqueia a atenção em canais irrelevantes (Cherry, 1953). 

= Desvio. O terceiro processo envolve a habilidade de desviar a atenção de um canal 
para outro, o que é provavelmente mediado de uma forma de cima para baixo pelo 
“chaveamento” do sinal auditivo incidente (Wood e Cowan, 1995). 

A conclusão que se tira destes pontos é que o processamento realizado sobre o sinal audi- 

tivo incidente é realmente do tipo espaço-temporal, 

O problema de projetar um filtro linear ótimo que forneça a estrutura teórica para os filtros 

adaptativos lineares foi concebido primeiramente por Kolmogorov (1942) e resolvido um 

pouco depois de forma independente por Wiener (1949). Por outro lado, uma solução 
formal para o problema da filtragem não-linear ótimo é matematicamente intratável. Ape- 

sar disso, nos anos 1950 foram realizados trabalhos brilhantes na área por Zadeh (1953), 

Wiener e seus colaboradores (Wiener, 1958), e outros que muito fizeram para esclarecer a 

natureza do problema. 

Gabor foi o primeiro а conceber a idéia de um filtro adaptativo não-linear em 1954 e 
continuou a trabalhar para construi-lo com а ajuda de colaboradores (Gabor et al., 1960) 
Basicamente, Gabor propôs a superação das dificuldades matemáticas da filtragem 
adaptativa não-linear, construindo um filtro que otimiza sua resposta através de aprendiza- 
gem. A saída do filtro é expressa na forma 


мл) = 3 wn * Y Y vv, Aral ma) t 


onde (0%, al}, ..., ХМ) são amostras da entrada do filtro. (Este polinômio é agora 


referenciado como o polinômio de Gabor-Kolmogorov ou serie de Volterra.) O primeiro 
termo do polinômio representa um filtro linear caracterizado por um conjunto de coefici- 


136 Renes Neurais 


12. 


13. 


14. 


15. 


entes fu 1. O segundo termo caracterizado por um conjunto de coeficientes diádicos fw. | 
é não-linear, este termo contém os produtos de duas amostras de entrada do filtro, e assim 
por diante, para os termos de ordem mais elevada, Os coeficientes do filtro são ajustados 
via descida do gradiente para minimizar o valor médio quadrático da diferença entre uma 
resposta-alvo (desejada) d(N) e a saída real do filtro у А). 

A função de custo Lid, Fix, wij definida na Eq. (2.71) se aplica a um escalar d. No caso de 
um vetor d como resposta desejada, a função aproximativa assume a forma de valor vetorial 
Fix, w). Neste caso, utilizamos a distância euclidiana ao quadrado 


Lid, Fix, w)) = 19 — Fix, wil? 


como a função de perda, A função F(-.-) é uma função de valor vetorial de seus argumen- 
tos. 
De acordo com Burges (1998), o Exemplo 2.3 que apareceu primeiramente em Vapnik 
(1995) se deve a E. Levin e 1.5. Denker. 
O limite superior da ordem de Wlog para a dimensão V-C de uma rede neural alimentada 
adiante construida com unidades de limiar lineares (perceptrons) fo1 obtida por Baum e 
Haussler (1989), Subseqüentemente, Maass (1993) mostrou que existe um limite inferior 
também da ordem de HlogW para esta classe de redes. 

O primeiro limite superior para a dimensão V-C de uma rede neural sigmóide foi 
derivado por Macintyre e Sontag (1993). Subseqüentemente, Koran e Sontag ( 1996) abor- 
daram uma questão aberta levantada por Maass (1993): 


“А dimensão М-С de redes neurais analógicas com função de ativação g= VI +e € 
limitada por um polinômio no número de parâmetros programáveis? ” 


Koiran e Sontag responderam afirmativamente a esta questão no seu artigo de 1996, como 
descrito no texto. 

Esta questão foi também respondida afirmativamente por Karpinski e Macintyre 
(1997). Neste último artigo, foi utilizado um método complicado baseado em topologia 
diferencial para mostrar que a dimensão V-C de uma rede neural sigmóide usada como 
classificador de padrões é limitada acima por O( H^), Existe um grande intervalo entre 
este limite superior e o limite inferior deduzido por Koiran e Sontag (1996). Em Karpinski 
с Macintyre (1997) conjectura-se que aquele limite superior poderia ser reduzido. 

O lema de Sauer pode ser formulado como (Sauer, 1972; Anthony e Biggs, 1992; Vidyasagar, 
1997: 


Considere que F represente o conjunto de dicotamias implementadas por uma máqui- 
na de aprendizagem. Se VCdim(*) = А com A finito e / » h > 1, então a função de 
crescimento A (7) é limitada acima por (e//h onde e é a base do logaritmo natural. 


Nesta nota, apresentamos o resumo de quatro importantes estudos relatados na literatura 
sobre a complexidade da amostra e as questões relacionadas à generalização. 

Primeiro, Cohn e Tesauro (1992) apresentam um estudo experimental detalhado so- 
bre o valor prático dos limites da complexidade da amostra baseado na dimensão V-C 
como uma ferramenta de projeto para classificadores de padrões. Em particular, os experi- 
mentos foram concebidos para testar a relação entre o desempenho de generalização de 
uma rede neural e o limite de pior caso, independente de distribuição derivado pela teoria 
estatística da aprendizagem de Vapnik. O limite considerado é definido por Vapnik (1982) 


LE zo| Mod +) (1) 


PROBLEMAS 
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onde +, é 0 erro de generalização, А é a dimensão V-C e N é o tamanho do arquivo de 

treinamento. Os resultados apresentados por Cohn e Tesauro mostram que o desempenho 

médio de generalização é significativamente melhor do que aquele previsto pela Eq. (1). 
Segundo, Holden e Niranjan (1995) estenderam o estudo anterior de Cohn e Tesauro 

abordando uma questão similar. Entretanto, existem três diferenças importantes que de- 

vem ser destacadas: 

е Todos os experimentos foram realizados com redes neurais com resultados exatos 
conhecidos ou com limites muito bons da dimensão V-C. 

е Foram feitas considerações especificas com relação ao algoritmo de aprendizagem. 

е Os experimentos foram baseados em dados reais. 

Embora os resultados relatados tenham fomecido previsões sobre a complexidade da amostra 

muito mais valiosas do ponto de vista prático do que aquelas fornecidas por teorias mais 

antigas, ainda hà deficiências significativas na teoria que necessitam ser superadas. 
Terceiro, Baum е Haussler (1989) relataram sobre o tamanho N da amostra de treina- 

mento necessário para treinar uma rede de camada única alimentada adiante com neurônios 

de limiar linear, obtendo boa generalização. Supõe-se que 05 exemplos de treinamento são 

escolhidos de uma distribuição de probabilidade arbitrária e que os exemplos de teste para 

avaliar o desempenho de generalização são também retirados da mesma distribuição. En- 

tão, de acordo com Baum e Haussler, a rede quase sempre apresentará boa generalização, 

desde que sejam satisfeitas duas condições: 

(1) O número de erros cometidos sobre o conjunto de treinamento é menor que €/2. 

(2) O número de exemplos, №, utilizado no treinamento é 


vol Led) B 


onde W é o número de pesos sinápticos da rede, A Equação (2) fornece para o tamanho № 
um limite de pior caso, independente de distribuição. Também aqui pode haver uma enor- 
me diferença numérica entre o tamanho real da amostra de treinamento necessária e aque- 
le calculado pelo limite da Eq. (2). 

Finalmente, Bartlett (1997) abordou a questão de que em tarefas de classificação de 
padrões utilizando redes neurais grandes, frequentemente constatamos que uma rede é 
capaz de operar com sucesso com exemplos de treinamento que são significativamente 
menores em tamanho que o número de pesos da rede, como relatado por Cohn e Tesauro 
(1992). No artigo de Barlett, mostra-se que naquelas tarefas em que redes neurais genera- 
lizam bem e se os pesos sinápticos não forem muito grandes, é o tamanho dos pesos em 
vez do número de pesos que determina o desempenho de generalização da rede. 


Regras de Aprendizagem 


2.1 


2.2 


2.3 


A regra delta descrita na Eq. (2.3) e a regra de Hebb descrita na Eq. (2.9) representam dois 
métodos diferentes de aprendizagem. Liste as caracteristicas que distinguem estas duas 
regras entre si. 

А regra de aprendizagem por corregáo de erro pode ser implementada utilizando-se inibi- 
ção para subtrair a resposta desejada (valor-alvo) da saida, e então aplicando а regra anti- 
hebbiana (Mitchison, 1989). Discuta esta interpretação da aprendizagem por começão de 
erra. 

A Figura P2.3 mostra um conjunto bidimensional de pontos de dados. Parte dos pontos de 
dados pertence à classe ‘6, e a outra parte pertence à classe %,. Construa a fronteira de 
decisão produzida pela regra do vizinho mais próximo aplicada a esta amostra de dados. 
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FIGURA P2.3 


Considere um grupo de pessoas cuja opinião coletiva sobre um tópico de interesse é defi- 
nida como a média ponderada das opiniões individuais de seus membros. Suponha que se, 
no decorrer do tempo, a opinião de um membro do grupo tender a concordar com a opi- 
nido coletiva do grupo, a opinião daquele membro ganhará mais peso. Se, por outro lado, 
aquele membro particular discordar de forma consistente da opinião coletiva do grupo, а 
opinião daquele membro receberá um peso menor. Esta forma de ponderação é equivalen- 
te ao controle com realimentação positiva, que produz um consenso de opimiáo no grupo 
(Linsker, 198582). 

Discuta a analogia entre a situação descrita e o postulado de Hebb de aprendizagem. 
Uma forma generalizada da regra de Hebh é descrita pela relação 


Aw (n) = Fy (GC Gor — Be, FO or) 


onde x (m) e y (a) são os sinais pré-sináptico e pós-sináptico, respectivamente; F(-) e G(-) 

são funções de seus respectivos argumentos; & Aw (n) é a variação produzida no peso 

sináptico 6, no tempo n em resposta aos sinais x (n) e y (n). Encontre (a) o ponto de 

equilibrio e (b) a depressão máxima, que são definidas por esta regra. 

Um sinal de entrada de amplitude unitária é aplicado repetidamente a uma conexão sináptica 

cujo valor inicial é também unitário. Calcule a variação no tempo do peso sináptico utili- 

zando as duas regras seguintes: 

(a) A forma simples da regra de Hebb descrita na Eq. (2.9) assumindo o parâmetro de 
taxa de aprendizado тү = 0,1. 

(b) A regra da covartância descrita na Eq. (2.10), assumindo que a atividade pré-sináptica 
x = (je a atividade pós-sináptica y = 1,0, 

A sinapse hebbiana descrita na Eq. (2.9) envolve o uso de realimentação positiva. Justifi- 

que a validade desta afirmação. 

Considere a hipótese da covariância para a aprendizagem auto-organizada descrita na Eq. 

(2,10). Assumindo a ergodicidade (1.e., médias temporais podem ser substituldas por médias 

de ensemble), mostre que o valor esperado de Aw, na Eq. (2.10) pode ser expresso como 
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E[Aw,] = Т ух] - Y X ) 
Como você interpretaria este resultado? 
29  Deacordo com Linsker (1986), o postulado de Hebb de aprendizagem pode ser formulado 
como: 


Aw, = т, y Hx, - x) ta, 


onde x EF, são os sinais pré-sináptico e pós-sináptico, respectivamente e a,, T], x, e y, são 
todos constantes. Assuma que o neurônio k linear, como mostrado por 


у= Y шых, + d. 
onde a, é uma outra constante. Assuma a mesma distribuição de probabilidade para todos 


os sinais de entrada, isto é, Elx] = Elx] = |. Suponha que a matriz C represente a matriz de 
covariáncia dos sinais de entrada com o seu ij-ésimo elemento definido por 


c,7 Eltx, - ax,- 1] 


Determine Aw,- 
110 Formule a expressão para a saida y, do neurônio j na rede da Fig, 2.4. Você pode utilizar as 
seguintes representações: 


х, = iésimo sinal de entrada 

1, = peso sináptico da entrada i para o neurônio ў 

c, = peso da conexão lateral do neurônio k para o neurônio j 
v, * campo local induzido do neurónio j 

y = plo) 


Qual ёа condição que deve ser satisfeita para que o neurônio ў seja o neurônio vencedor? 
2.11  Repita o Problema 2.10, assumindo que cada neurônio de saída inclua auto-realimentação. 
2.12  O padrão de conexão para a inibição lateral, ou seja “excitação próxima е inibição afasta- 
da", pode ser modelado como a diferença entre duas curvas gaussianas. As duas curvas 
têm a mesma área, mas a curva positiva para a excitação tem um pico mais alto e mais 
estreito do que a curva negativa рага a inibição. Isto é, podemos expressar o padrão de 
Conexão como 


onde x é a distância a partir do neurônio responsável pela inibição lateral. O padrão Wix) é 
utilizado para varrer uma página, sendo que metade dela é branca e a outra metade é preta; 
a fronteira entre as duas metades é perpendicular ao eixo x. 

Trace a saida que resulta deste processo de varredura com 0, = 1 еб, = 2. 


Paradigmas de Aprendizagem 


2.13 A Fig. P2.13 mostra o diagrama em blocos de um sistema adaptativo de aquisição de 
linguagem (Gorin, 1992). As conexões sinápticas na parte da rede neural do sistema são 
fortalecidas ou enfraquecidas, dependendo da realimentação relativa à adequação da res- 
posta da máquina a estímulos de entrada. Este sistema pode ser visto como um exemplo de 
aprendizagem por reforço. Reflita sobre a validade desta afirmação. 
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FIGURA P2.13 


A qual dos dois paradigmas, aprendizagem com um professor e aprendizagem sem um 
professor, pertence cada um dos seguintes algoritmos? Justifique as suas respostas. 

(a) regra do vizinho mais próximo 

(b) regra dos k vizinhos mais próximos 

(c) aprendizagem hebbiana 

(d) regra de aprendizagem de Boltzmann 

A aprendizagem não-supervisionada pode ser implementada em uma forma “em tempo de 
execução” (on-line) ou “fora do tempo de execução” (off-line). Discuta as implicações 
fisicas destas duas possibilidades, 

Considere as dificuldades que uma máquina de aprendizagem enfrenta ao atribuir crédito 
para o resultado (ganho, perda ou empate) de um jogo de xadrez. Discuta as noções de 
atribuição de crédito temporal e atribuição de crédito estrutural no contexto deste jogo. 
Uma tarefa de aprendizagem supervisionada pode ser vista como uma tarefa de aprendiza- 
gem por reforço utilizando como sinal de reforço uma medida da proximidade da resposta 
atual do sistema em relação à resposta desejada. Discuta esta relação entre aprendizagem 
supervisionada e aprendizagem por reforço. 


Considere os seguintes conjuntos ortonormais de padrões-chave, aplicados à memória por 
matriz de correlação: 


y, = [5, 1, 077 
y, = | 1, еј" 
y, = [-2,4,3]' 


(a) Calcule а matriz de memória МІ. 

(b) Mostre que a memória associa perfeitamente. 

Considere novamente a memória por matriz de correlação do Problema 2.18. O estimulo 
aplicado à memória é uma versão ruidosa do padrão-chave x , como mostrado por 


х = [0,8, -0,15, 0,15, -0,20]7 


(a) Calcule a resposta da memória y. 


2.20 


Adaptação 
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(b) Mostre que a resposta y é a mais próxima do padrão y, no sentido euclidiano. 
Uma memória auto-associativa é treinada com os seguintes vetores-chave: 


х, = {[-2,-3,/3] 
x, = [2,-2,—/%]| 
x, =4[3,-1,/6] 


(a) Calcule оз ângulos entre estes vetores. Quão próximos estão da situação de 
ortogonalidade entre eles? 

(b) Utilizando a generalização da regra de Hebb (i.e, a regra do produto externo), calcule 
a matriz de memória da rede. Investigue o quão próximo da perfeição está a auto- 
associação da memória, 

(c) Uma versão mascarada do vetor-chave x,, isto é, 


x=[0,-3,,3] 


é aplicada à memória. Calcule a resposta da memória e compare o seu resultado com 
a resposta desejada x . 


A Figura Р2.21 mostra o diagrama em blocos de um sistema adaptativo. O sinal de entrada 
para o modelo previsor & definido pelos valores passados de um processo, como mostrado 
por 


xn — 1) = [x — 1), elen 2)... хн — 0] 


A saida do modelo, X (n), representa uma estimativa do valor presente, x(n), do processo, 
Q comparador calcula o sinal de erro 


em) = x(n) — x(n) 


que, por sua vez, aplica uma correção aos parâmetros ajustáveis do modelo. Ele também 
fornece um sinal de salda para transferência para o próximo nível de processamento neural, 
para fins de interpretação. Repetindo esta operação em uma forma nivel por nivel, a infor- 
mação processada pelo sistema tende à ser de qualidade progressivamente melhor (Mead, 
1990. 

Preencha os detalhes do nivel seguinte de processamento de sinal ao descrito na Fig. 
P2.21, 
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2.22 


2.23 


Seguindo um procedimento similar àquele descrito na derivação da Eq. (2.62) a partir de 
(2.61), derive a fórmula para a função de média de ensemble L (f(x), F(x, 3)) definida 
na Eq. (2.66). 

Neste problema, descjamos calcular a dimensão V-C de uma região retangular alinhada 
com um dos eixos no plano. Mostre que a dimensão V-C deste conceito é quatro. Você 
pode fazer isso considerando o seguinte: 

(а) Quatro pontos em um plano e uma dicotomia realizada por um retângulo alinhado 

com um eixo. 
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1.26 
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FIGURA P2.21 


(b) Quatro pontos em um plano, para os quais nàe existe uma dicotomia realizável por um 
retângulo alinhado a um eixo., 

(c) Cinco pontos em um plano, para os quais também nào existe uma dicotomia realizá- 
vel por um retângulo alinhado a um eixo. 

Considere um classificador linear de padrões binários cujo vetor de entrada x tem dimen- 

são m. О primeiro elemento do vetor x é constante e fixo em uma unidade, de forma que o 

peso correspondente do classificador introduz um bias. Qual é a dimensão V-C do classifi- 

cador em relação ao espaço de entrada? 

A desigualdade (2.97) define um limite para a taxa de convergência uniforme, que é básica 

para o principio da minimização de risco empírico. 

(a) Justifique a validade da Ед. (2.98), assumindo que valha a desigualdade (2.97). 

(b) Derive a Eq. (2.99) que define o intervalo de crença є. 

Continuando com o Exemplo 2.3, mostre que os quatro pontos uniformemente espacados 

da Fig. P2.26 não podem ser separados pela familia de funções indicadoras de um parámetro 

fix, ae В. 

Discuta a relação entre o dilema luas-variância e à minimização estrutural de risco no 

contexto da regressão não-linear. 

(a) Um algoritmo utilizado para treinar uma rede de múltiplas camadas alimentada adian- 
te cujos neurônios utilizam uma função sigmóide pode ser aprendido por PAC. Justi- 
fique a validade desta afirmação. 

(b) Você pode fazer uma afirmação similar para uma rede neural arbitrária cujos neurônios 
utilizam uma função de ativação de limiar? Justifique à sua resposta. 


FIGURA P2.26 


CAPÍTULO 3 


Perceptrons de Camada Única 


3.1 INTRODUÇÃO 


Nos anos formativos das redes neurais (1943-1958), vários pesquisadores se sobressairam por suas 
contribuições pioneiras: 


* McCulloch e Pitts (1943) por introduzirem a idéia de redes neurais como máquinas 
computacionais. 

+ Hebb (1949) por postular a primeira regra de aprendizagem auto-organizada. 

+ Rosenblatt (1958) por propor o perceptron como o primeiro modelo para aprendizagem com 
um professor (i.e., aprendizagem supervisionada). 


О impacto do artigo de MeCulloch-Pitts sobre redes neurais foi realçado no Capitulo 1. A idéia da 
aprendizagem hebbiana foi discutida com alguma extensão no Capitulo 2. Neste capitulo, discuti- 
mos o perceptron de Rosenblatt. 

O perceptron é a forma mais simples de uma rede neural usada para a classificação de padrões 
ditos linearmente separdveis (i.e, padrões que se encontram em lados opostos de um hiperplano). 
Basicamente, ele consiste de um único neurônio com pesos sinápticos ajustáveis e bias. O algoritmo 
usado para ajustar os parâmetros livres desta rede neural apareceu primeiro em um procedimento de 
aprendizagem desenvolvido por Rosenblatt (1958, 1962) para o seu modelo cerebral do perceptron.' 
De fato, Rosenblatt provou que se os padrões (vetores) usados para treinar o perceptron são retira- 
dos de duas classes linearmente separáveis, então o algoritmo do perceptron converge e posiciona a 
superficie de decisão na forma de um hiperplano entre as duas classes. À prova de convergência do 
algoritmo é conhecida como o teorema de convergencia do perceptron. O perceptron construido em 
torno de um único neurônio é limitado a realizar classificação de padrões com apenas duas classes 
(hipóteses). Expandindo a camada de (computação) saída do perceptron para incluir mais de um 
neurônio, podemos correspondentemente realizar classificação com mais de duas classes. Entretan- 
to, as classes devem ser linearmente separáveis para que o perceptron funcione adequadamente, O 
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ponto importante é que, na medida em que consideramos a teoria hásica do perceptron como um 
classificador de padrões, necessitamos considerar apenas o caso de um único neurônio. A extensão 
da teoria para o caso de mais de um neurônio é trivial. 

O neurônio único também forma a base de um filtro adaptativo, um bloco funcional que é 
básico para o tema do processamento de sinais, que está sempre em expansão. O desenvolvimento 
da filtragem adaptativa deve muito ao clássico artigo de Widrow e Hoff (1960), por criar o chamado 
algoritmo do minimo quadrado médio (LMS, least-mean-square), também conhecido como a regra 
delta. O algoritmo LMS é simples de implementar e no entanto muito efetivo em relação à sua 
aplicação. Realmente, ele é o carro chefe da filtragem adaptativa linear, linear no sentido de que o 
neurônio opera no seu modo linear. Os filtros adaptativos têm sido aplicados com sucesso em cam- 
pos tào diversos como antenas, sistemas de comunicação, sistemas de controle, radar, sonar, 
sismologia e engenharia biomédica (Widrow e Stearns, 1985; Haykin, 1996). 

O algoritmo LMS e o perceptron são naturalmente inter-relacionados. Por isso, é apropriado 
que os estudemos juntos em um capítulo. 


Organização do Capítulo 


O capítulo está organizado em duas partes. À primeira parte, que consiste das Seções 3.2 a 3.7, trata 
dos filtros adaptativos lineares e do algoritmo LMS. A segunda parte, que consiste das Seções 3.8 a 
3.10, trata do perceptron de Rosenblatt. Do ponto de vista de apresentação, achamos mais conveni- 
ente discutir primeiro os filtros adaptativos lineares e depois o perceptron de Rosenblatt, invertendo 
a ordem histórica de como surgiram. 

Na Seção 3.2, abordamos o problema da filtragem adaptativa, seguida da Seção 3.3, uma 
revisão de trés técnicas de otimização irrestrita: o método da descida mais ingreme, o método de 
Newton e o método de Gauss-Newton, que são particularmente relevantes ao estudo dos filtros 
adaptativos. Na Seção 3.4, discutimos um filtro linear de minimos quadrados, que se aproxima de 
forma assintótica do filtro de Wiener, quando o tamanho dos dados aumenta. O filtro de Wiener 
fornece uma estrutura ideal para o desempenho de filtros lineares adaptativos operando em ambien- 
tes estacionários. Na Seção 3.5, descrevemos o algoritmo LMS, incluindo uma discussão de suas 
virtudes e limitações. Na Seção 3.6, exploramos a idéia de curvas de aprendizagem, utilizadas 
normalmente para avaliar o desempenho de filtros adaptativos. Segue então uma discussão sobre 
esquemas de recozimento ("annealing") para o algoritmo LMS, na Seção 3,7. 

A seguir, passando para o perceptron de Rosenblatt, a Seção 3.8 apresenta algumas considera- 
ções básicas envolvidas na sua operação. Na Seção 3.9, descrevemos o algoritmo para ajustar o 
vetor de pesos sinápticos do perceptron para a classificação de classes linearmente separáveis е 
demonstramos a convergência do algoritmo. Na Seção 3.10, consideramos a relação entre o perceptron 
ё o classificador bayesiano para um ambiente gaussiano. 

O capítulo é concluido com um resumo e uma discussão final na Seção 3.11. 


3.2 O PROBLEMA DA FILTRAGEM ADAPTATIVA 


Considere um sistema dinâmico cuja caracterização matemática é desconhecida. Tudo do que dis- 
pomos sobre o sistema é um conjunto de dados de entrada-saida gerados pelo sistema em instantes 
de tempo discretos a uma taxa uniforme. Especificamente, quando um estimulo m-dimensional хг) 
é aplicado através dos m nós de entrada do sistema, o sistema responde produzindo uma saida 
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Entradas 


FIGURA 3.1 (a) Sistema dinâmi- 
co desconhecido. (b) Grafo de luxo 
de sinal do modelo adaptativo para 
(b) o sistema 





escalar di), onde i = 1, 2,...,n,... como representado na Fig. 3.1a. Assim, o comportamento externo 
do sistema é descrito pelo conjunto de dados 


S: UA, dii; i = 1,2... п,...} (3.1) 
onde 
x(i) = [x (i), x G)...., x G)]" 


As amostras compreendidas em Y são identicamente distribuidas de acordo com uma lei de proba- 
bilidade desconhecida. А dimensão m relativa ao vetor de entrada x(i) é referida como a 
dimensionalidade do espaço de entrada ou simplesmente dimensionalidade. 

O estímulo x(i) pode aparecer em uma de duas formas fundamentalmente diferentes, uma 
espacial e a outra temporal: 


e Os m elementos de x(i) se originam em diferentes pontos do espaço; neste caso, falamos de 
x(i) como um instantáneo de dados. 

+ Os т elementos de x(/) representam o conjunto do valor presente e dos (m — 1) valores passa- 
dos de uma excitação, que são uniformemente espaçados no tempo. 


O problema que abordamos é o de como projetar um modelo de múltiplas entradas-única saída do 
sistema dinâmico desconhecido, construindo-o em tomo de um único neurônio linear. O modelo 
neuronal opera sob a influência de um algoritmo que controla os ajustes necessários dos pesos 
sinápticos do neurônio, considerando os seguintes pontos: 


~ O algoritmo inicia com uma configuração arbitraria para os pesos sinápticos do neurônio. 

* Os ajustes dos pesos sinápticos, em resposta a variações estatísticas do comportamento do 
sistema, são feitos de uma forma continua (Le., o tempo é incorporado na constituição do 
algoritmo). 

* Os cálculos dos ajustes dos pesos sinápticos são completados dentro de um intervalo de tempo 
que é igual a um periodo de amostragem. 
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O modelo neuronal descrito é conhecido como um filtro adaptativo. Apesar da descrição ser apre- 
sentada no contexto de uma tarefa claramente reconhecida como de identificação de sistema, a 
caracterização do filtro adaptativo é suficientemente genérica para ter ampla aplicação. 

A Figura 3. Ib apresenta um grafo de fluxo de sinal do filtro adaptativo, A sua operação consiste de 
dois processos continuas: 


1. Processo de filtragem, que envolve a computação de dois sinais: 


* Uma saida, representada por Mi), que é produzida em resposta aos m elementos do vetor de 
estímulo кїї), isto é, x (i), х... x (f). 

* Um sinal de erro, representado por e(i), que é obtido comparando-se a saida уќ) com a saida 
correspondente (Г) produzida pelo sistema desconhecido. Na verdade, d(i) age como uma 
resposta desejada ou sinal-alvo. 


2. Processo adaptativo, que envolve o ajuste automático dos pesos sinápticos do neurônio, de 
acordo com o sinal de erro ei). 


Assim, a combinação destes dois processos atuando juntos constitui um laço de realimentação que 
age em torno do neurônio, 


Como o neurônio é linear, a saida vii) € exatamente a mesma que o campo local induzido #07); 
isto É, 


ж) = ®(й) = Y а, (0х, (0) (3.2) 
del 
onde 20 (i), 1£ (1)... wW (7) são os m pesos sinápticos do neurónio, medidos no tempo i. Na forma 
matricial podemos expressar v(/) como um produto interno dos vetores x(/) e w(i) como segue: 


yx = x" (wt) (3.3) 
onde 


wi) = [10 (0), 0,00)... WOT 


Note que a notação para um peso sináptico foi simplificada aqui, não incluindo um indice adicional 
para identificar o neurônio, pois lidamos com apenas um único neurônio, Esta notação será seguida 
em todo o capitulo. A saida do neurônio v(i) é comparada com a saida correspondente d(i) recebida 
do sistema desconhecido no tempo i. Tipicamente, v(7) é diferente de dif), com isso, esta compara- 
ção resulta no sinal de erro: 


eli) = di) — wi) (3,4) 


A maneira pela qual o sinal de erro e(i) é usado para controlar os ajustes dos pesos sinápticos do 
neurônio é determinada pela função de custo utilizada para derivar o algoritmo de filtragem adaptativa 
de interesse, Esta questão está intimamente relacionada com a da otimização. É, portanto, apropri- 
ado apresentar uma revisão dos métodos irrestritos de otimização. Este material é aplicável não 
somente aos filtros lineares adaptativos, mas também às redes neurais em geral. 
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33 TÉCNICAS DE OTIMIZAÇÃO IRRESTRITAS 

Considere uma função de custo € (w) que seja uma função continuamente diferenciavel de um vetor 
de peso (parâmetro) desconhecido w, A função É(w) mapeia os elementos de w em números reais. 
Ela é uma medida de como escolher o vetor de peso (parâmetro) w de um algoritmo de filtragem 


adaptativa de modo que ele se comporte de uma maneira ótima. Queremos encontrar a solução 
ótima w* que satisfaz a condição 


V(w*) € E(w) (3.5) 
Isto é, precisamos resolver um problema irrestrito de otimização, formulado como segue: 
Minimize a função de custo E(w) em relação ao vetor de pesos w (3.6) 
A condição necessária para a otimização é 
Vé(w*) = 0 (3.7) 


onde V é o operador gradiente: 





v.[3..9 at 
дш, Ow, "дш (3.8) 


e VE(w) é o vetor gradiente da função de custo: 


(3.9) 


vé - | 2 JE a 


Uma classe de algoritmos de otimização irrestritos que é particularmente adequada para o projeto 
de filtros adaptativos é baseada na idéia da descida iterativa local: 


Iniciando com uma suposição inicial representada por w(Ü), gere uma sequencia de vetores de 
peso w(1), w(2)..... de modo que a função de custo E(w) seja reduzida a cada iteração do algoritmo, 
como mostrado por 


Elw(n + 1)) < (wm) (3.10) 
onde win) é o valor antigo do vetor de peso e win + 1) é o seu valor atualizado. 


Esperamos que este algoritmo eventualmente convirja para a solução ótima w*. Dizemos "espera- 
mos” porque há uma nitida possibilidade de o algoritmo divergir (i.e, se tornar instável) a menos 
que sejam tomadas precaucóes especiais. 

Nesta seção, descrevemos trés métodos irrestritos de otimização que se basciam na idéia da 
descida iterativa de uma forma ou de outra (Bertsekas, 19953). 
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Método da Descida mais ingreme 


No método da descida mais ingreme, os ajustes sucessivos aplicados ao vetor de peso w são nå 
direção da descida mais ingreme, isto é, em uma direção oposta ao vetor do gradiente V'E(w). Por 
conveniência de apresentação, escrevemos 


g= Vé(w) (3.11) 
Correspondentemente, o algoritmo da descida mais ingreme é descrito formalmente por 
win + 1) = win) ngin) (3.12) 


onde t é uma constante positiva chamada de tamanho do passo ou parámetro de taxa de aprendiza- 
gem, e gin) é o vetor do gradiente calculado no ponto wia). Passando da iteração n para n + 1, о 
algoritmo aplica a correção 


Aw(n)- w(n1)- win) 


=-ng(n) (3.13) 
A Equação (3.13) é na verdade uma descrição formal da regra de correção de erro descrita no 
Capítulo 2. 

Para mostrarmos que a formulação do algoritmo da descida mais ingreme satisfaz a condição 
de (3.10) para a descida iterativa, utilizamos uma expansão em série de Taylor de primeira ordem 
em tomo de w(n) para aproximar E(w(n + 1)) como 


E(w(n + 1) =8(w(1)) + g'(1)Aw(n) 
cujo uso é justificado para т pequeno. Substituir a Eq. (3.13) nesta relação aproximada produz 


E(w(n+1)) =8 (w(2))- ng (ngin) 
= # (w(n)) пет) 


a qual mostra que, para um parámetro de taxa de aprendizagem positivo тр, a função de custo decres- 
ce quando o algoritmo evolui de uma iteração para a próxima. О raciocinio apresentado aqui é 
aproximado, pois este resultado final só é verdadeiro para taxas de aprendizagem suficientemente 
pequenas. 

O método da descida mais ingreme converge lentamente para a solução ótima w*. Além disso, 


o parámetro de taxa de aprendizagem т tem uma influência profunda no seu comportamento quanto 
à convergência: 


* Quando т] ё pequeno, a resposta transitória do algoritmo é sobreamortecida, sendo que a 
trajetória traçada por w(») segue um caminho suave no plano W^, como ilustrado na Fig. 3.2 a. 

* Quando n é grande, a resposta transitória do algoritmo é subamortecida, sendo que a trajetória 
de w(n) segue um caminho ziguezagueante (oscilatório), como ilustrado na Fig. 3.2 b. 

* Quando rj excede um valor critico, o algoritmo se torna instável (i.e, diverge). 


PERCEPTRONS ve Camana Única — 149 





4.0 00 40 
teu) 


(b) 


FIGURA 3.2 Trajetória do método da descida mais ingreme em um espaço bidimensional 
para dois valores diferentes de parámetro de taxa de aprendizagem: (a) тү = 0.3, (b) тү = 1.0. 
As coordenadas w, e w, são elementos do vetor de paso w 
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Método de Newton 


A idéia básica do método de Newton é minimizar a aproximação quadrática da função de custo 
(му) em torno do ponto corrente w(n); esta minimização é realizada a cada iteração do algoritmo. 
Especificamente, usando a expansão de Taylor de segunda ordem da função de custo em tomo do 
ponto w(n), podemos escrever 


АЕ (мату) = Elwin + Тур (wm) 


= B Mann) + 5 Aw" HANG (3.14) 


Como anteriormente, pin) é um vetor gradiente m-por-1 da função de custo E(w) calculada no 
ponto win). А matriz Hin} é a matriz hessiana m-por-m de (м), também calculada no ponto win). 
A hessiana de E(w) é definida por 




















H-zV'E(w) 
FE а FE 
дш du ТА dw, edu 
9% de e 
= дш „диш; дш! х he de, (3.15) 
d 1 E HE ey d " E 
| de, eu, chui oie, our 


A Equação (3.15) requer que a função de custo (м) seja duas vezes continuamente diferenciável 
em relação aos elementos de w. Diferenciando? a Eq. (3.14) em relação a Aw, a variação А (үг) é 
minimizada quando 

gin) + HinjAw(n)= 0 


Resolver esta equação para Aw(n) resulta 


Awin) = — H Член) 
Isto É, 
win +1) = win) + Awi) 
=w(n)-Hº (n)g(n) 


(3.16) 


onde H-' (n) é a inversa da hessiana de €(w). 

Genericamente falando, o método de Newton converge rapidamente de modo assintótico e 
ado exibe o comportamento ziguezagueante que algumas vezes caracteriza o método da descida 
mais ingreme. Entretanto, para que o método de Newton funcione, a hessiana H(n) deve ser uma 
matriz definida positivamente para todo n. Infelizmente, em geral, não há garantia de que Н(л) seja 
definida positivamente para toda iteração do algoritmo. Se a hessiana Hs) não é definida positiva- 
mente, € necessária uma modificação no método de Newton (Powell, 1987; Bertsekas, 1995a). 
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Método de Gauss-Newton 


O método de Gauss-Newton é aplicável a uma função de custo que é expressa como a soma de erros 
quadrados. Seja 


E(w)= „Ye (3.17) 
fol 


onde o fator de escala 1/2 é incluído para simplificar a análise subsequente. Todos os termos de erro 
nesta fórmula são calculados com base no vetor de peso w que é fixo dentro de todo o intervalo de 
observação | SiS n. 

O sinal de erro e(í) é uma função do vetor de peso ajustável w. Dado um ponto de operação 
win), linearizamos a dependência de e(í) em relação a w escrevendo 

















€ = ow bow wiaj, iz1,2,...," (3.18) 
Equivalentemente, utilizando a notação matricial, podemos escrever 
ela, м) = e(n) + Jin) (w — win) (3.19) 
onde e(n) é o vetor de erro 
efn) = [e(1), e(2)...., e(m]" 
e J(n) é a matriz jacobiana n-por-m de e(n): 
dell) dell) al 
de, дш, du, 
de(2) de(2) де(2) 
J(n)-| dw, дш, dui, (3.20) 
dela] dela) x dein) 
dw, дш, Qui, |n 
A jacobiana п} é a transposta da matriz de gradiente m-por-n Ve(n), onde 
Ve(n) = [Ve(1), Ve(2)..... Vein)] 
O vetor de peso atualizado w(n + 1) é assim definido por 
wín + 1) = arg ming aw} (3.21) 








Usando a Eq. (3.19) para calcular a norma euclidiana quadrática de e (л, w), obtemos 
Las | 
zie (п = Seo + e QJ — win) 


+ zov — win) M (n)(nw — win) 
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Assim, diferenciando esta expressão em relação a w e igualando o resultado à zero, obtemos 
Prel) + J'(nM(nYw — win) = 0 
Resolvendo esta equação para w, podemos então escrever a partir da Eq. (3.21): 
win + = win А) ine) (3,22) 


que descreve a forma pura do método de Gauss-Newton. 

Diferentemente do método de Newton, que requer o conhecimento da matriz hessiana da 
função de custo (т), o método de Gauss-Newton requer apenas a matriz jacobiana do vetor de erro 
e(n). Entretanto, para que a iteração de Gauss-Newton seja computável, a matriz produto (пы) 
deve ser nào-singular. 

Com relação a este último ponto, reconhecemos que Jin (n) é sempre definida nào negativa- 
mente. Para assegurar que ela seja não-singular, a jacobiana (п) deve ter posto n, em relação às 
linhas; isto €, as a linhas de Jin) па Eq. (3.20) devem ser linearmente independentes. Infelizmente, 
não há garantia de que esta condição seja sempre satisfeita. Para nos resguardarmos contra a possi- 
bilidade de que Jfr) seja deficiente em posto, a prática habitual é adicionar a matriz diagonal öl à 
matriz J'(n)J(n). O parámetro à é uma constante positiva pequena escolhida para assegurar que 


(лп) + 8E : definida positivamente para todo s 
Baseado nisto, o método de Gauss-Newton é implementado na forma ligeiramente modificada: 
win + 1)= win) — (rn) + ӨГ Jet) (3.23) 


O efeito desta modificação é reduzido progressivamente à medida que o número de iterações, п, ё 
aumentado. Note também que a equação recursiva (3.23) é a solução da função de custo modifica- 
da: 


ew =115in vO «фе (3.24) 


fan], 
onde w(0) € o valor inicial do vetor de peso wii), 
Estamos agora equipados com as ferramentas de otimizagáo de que necessitamos para abor- 
darmos as questóes especificas que envolvem a filtragem adaptativa linear. 


3.4 FILTRO LINEAR DE MÍNIMOS QUADRADOS 


Como o nome implica, um filtro linear de minimos quadrados tem duas caracteristicas distintivas. 
Primeiro, o único neurônio em torno do qual é construido é linear, como mostrado no modelo da 
Fig. 3.1b. Segundo, a função de custo '6(w) usada para projetar o filtro consiste da soma de erros 


quadrados, como definido na Eq. (3.17). Baseado nisto, utilizando as Eqs. (3.3) e (3.4), podemos 
expressar o vetor de erro efa) como segue: 


e(n) = (к) [x(1), x(2), … x(n)| win) 


(3.25) 
= d(n)- Хіні) 
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onde din) é o vetor da resposta desejada n-por-1: 

din) = [4(1), Aa... ct] 
e X(n) é a matriz de dados n-por-m: 

X(mn) = [x( 1), x(2),.... un) 
Diferenciando a Eq. (3.25) em relação a wir), obtemos a matriz do gradiente 

Ven} =- Xin} 
Correspondentemente, a jacobiana de ein} é 
Jin) = — X(n) (3.26) 

Como a equação do erro (3.19) já é linear em relação ao vetor de peso win), o método de Gauss- 


Newton converge em uma única iteração, como mostrado aqui. Substituindo as Eqs. (3.25) e (3.26) 
nå Eq. (3.22), obtemos 


mía +1) = (л) ÈX X) X" (utn) - X(n)w(n)) 327) 
E C А 
=(X(n)X(n)) X (n)d(n) 


Reconhecemos o termo (X'(n)X(n)) Хт) como a pseudoinversa da matriz de dados Kir) como 
mostrado em Golub e Van Loan (1996), e Haykin (1996); isto é, 


X'(n) = (X'(n)Xin)y ХУ) (3.28) 
Com isso, podemos rescrever a Eq. (3.27) na forma compacta 
win + 1) = X'(n)d(n) (3.29) 


Esta fórmula representa um modo conveniente de dizer: “O vetor de peso w(n + 1) resolve o proble- 
ma linear dos minimos quadrados definido sobre um intervalo de observação de duração т." 


Filtro de Wiener: Forma Limite do Filtro Linear dos Minimos 
Quadrados para um Ambiente Ergódico 


Um caso de particular interesse é quando o vetor de entrada x(i) e a resposta desejada d(i) são 
retirados de um ambiente ergódico que é também estacionário. Podemos então substituir as médias 
de amostras de longo prazo, ou médias temporais, por expectativas ou médias de ensemble (Gray e 
Davisson, 1986). Um ambiente assim é parcialmente descrito por estatísticas de segunda ordem: 


* A matriz de correlação do vetor de entrada x(1); ela é representada por R, 
* O vetor de correlação cruzada entre o vetor de entrada x(i) e a resposta desejada d(i); ele é 
representado por r, 
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Estas duas quantidades são definidas, respectivamente, como segue: 
R, = £[xiox' (1) 


= lim Y xx (i) (3.30) 


ч=п iz 


= lim X" (nyX(n) 


n3 рр 


ro = Elx(0d(0)] 


= lim : У Ddi) (3.31) 


iw] 


- lim - X" (ma(m) 
mem рр 


onde É representa o operador estatístico do valor esperado. Conseqüentemente, podemos reformular 
a solução linear dos minimos quadrados da Eq.(3.27) como segue: 


wa = lim win +1) 


= lim(X' (n)X(n)) XK (din) 

nc (3.32) 
- lim (X^ tno ! lim LX”(n)dim) 

a= n ae n 


onde В.‘ ёа inversa da matriz de correlação R . O vetor de peso w é denominado a solução de 
Wiener para o problema da filtragem linear ótima, em reconhecimento às contribuições de Norbert 
Wiener para este problema (Widrow e Stearns, 1985; Haykin, 1996). Conseqüentemente, podemos 
fazer a seguinte afirmação: 


Para ит processo ergódico, o filtro linear de minimos quadrados se aproxima de forma assintótica 
do filtro de Wiener quando o numero de observações se aproxima do infinito. 


O projeto do filtro de Wiener requer o conhecimento das estatísticas de segunda ordem: a matriz de 
correlação R do vetor de entrada x(n) e o vetor de correlação cruzada г, entre x(n) e a resposta 
desejada din). Entretanto, esta informação não está disponível em muitas situações importantes 
encontradas na prática. Podemos lidar com um ambiente desconhecido utilizando um filtro linear 
adaptativo, adaptativo no sentido de o filtro ser capaz de ajustar os seus parámetros livres em res- 
posta a variações estatísticas no ambiente. Um algoritmo muito popular para fazer este tipo de 
ajuste de forma continua é o algoritmo do minimo quadrado médio, que está intimamente relaciona- 
do com o filtro de Wiener. 
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3.5 ALGORITMO DO MÍNIMO QUADRADO MÉDIO 


O algoritmo do minimo quadrado médio (LMS) é baseado na utilização de valores instantáneos 
para a função de custo, ou seja, 


E(w)= e (ну (3.33) 


onde e(1) é o sinal de erro medido no tempo n. Diferenciando E(w) em relação ao vetor de peso м, 
obtemos 
(м) _ deln) 
м ay 


Como no caso do filtro dos minimos quadrados, o algoritmo LMS opera com um neurônio linear de 
forma que podemos expressar o sinal de era como 


(3.34) 





ar) = dim = x Grw(n) (3.35) 
Com isso, 
m = -x(n) 
E 
D = ~х(п)е(л) 


Utilizando este último resultado como uma estimativa para о vetor do gradiente, podemos escrever 


gin) = — x(m)e(n) (3.36) 


Finalmente, usando a Eg. (3.36) para o vetor do gradiente na Eg. (3.12) para o método da descida 
mais ingreme, podemos formular o algoritmo LMS como segue: 


win + 1) = (п) + namen) (3.37) 


onde т] é o parâmetro da taxa de aprendizagem. O laço de realimentação em torno do vetor de peso 
w (п) no algoritmo LMS se comporta como um filtro passa-baixas, deixando passar as componen- 
tes de baixa frequência do sinal de erro e atenuando suas componentes de alta frequência (Haykin, 
1996). À constante de tempo média desta ação de filtragem é inversamente proporcional ao parâmetro 
de taxa de aprendizagem тү. Conseqüentemente, atribuindo-se um valor pequeno a t], o processo 
adaptativo progredirá lentamente. Um número maior de dados passados será então recordado pelo 
algoritmo LMS, resultando em uma ação de filtragem mais precisa. Em outras palavras, O inverso 
do parámetro da taxa de aprendizagem 1] é uma medida da memória do algoritmo LMS. 

Na Eq. (3.37), utilizamos w (n) em lugar de wim) para enfatizar o fato de que o algoritmo LMS 
produz uma estimativa do vetor de peso que resultaria da utilização do método da descida mais 
ingreme. Consegüentemente, utilizando o algoritmo LMS sacrificamos uma caracteristica distinti- 
va do algoritmo da descida mais ingreme. No algoritmo da descida mais ingreme, o vetor de peso 
win) segue uma trajetória bem-definida no espaço de pesos para um determinado ту. Por outro lado, 
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no algoritmo LMS o vetor de peso wn) traça uma trajetória aleatória. Por essa razão, o algoritmo 
LMS é algumas vezes denominado “algoritmo do gradiente estocástico". Conforme o número de 
iterações no algoritmo LMS se aproxima do infinito, (т) realiza uma caminhada aleatória (movi- 
mento browniano) em torno da solução de Wiener w . O ponto importante é o fato de que, diferen- 
temente do método da descida mais ingreme, o algoritmo LMS não requer o conhecimento das 
estatisticas do ambiente. 

Um resumo do algoritmo LMS é apresentado na Tabela 3.1, que ilustra claramente а simplici- 
dade do algoritmo. Como indicado nesta tabela, para a inicialização do algoritmo, normalmente se 
faz o valor do vetor de peso no algoritmo igual a zero. 


TABELA 3.1 Resumo do Algoritmo LMS 


Amostra de Treinamento: Vetor do sinal de entrada = xin) 
Resposta desejada = dm) 

Parâmetro selecionado pelo usudrio: h 

Inicialização. Suponha que ww (0) = 0. 

Computação. Para s = 1, 2, :., computar 


ein) = din) = winden) 
wint I= win) + hindern) 


Representação por Grato de Fluxo de Sinal do Algoritmo LMS 


Combinando as Egs. (3.35) e (3.37), podemos expressar a evolução do vetor de peso no algoritmo 
LMS como segue: 


w(n +1) = wl} + nxGo[d(n) (п) (и) 


TE 3.38 
= [L- ткн) (а) |н) + ађан) d 

onde I é a matriz identidade, Utilizando o algoritmo LMS, reconhecemos que 
win z [win + DJ] (3.39) 


onde 2 é o operador atraso unitário, implicando armazenamento, Usando as Eqs. (3.38) e (3.39), 
podemos então representar o algoritmo LMS pelo grafo de fluxo de sinal representado na Fig. 3.3. 
Este grafo de fluxo de sinal revela que o algoritmo LMS é um exemplo de um sistema realimentado 
estocdstico. A presença de realimentação tem um impacto profundo no comportamento em relação 
à convergência do algaritmo LMS, 


Considerações sobre a Convergência do Algoritmo LMS 


Da teoria de controle sabemos que a estabilidade de um sistema realimentado é determinado pelos 
parâmetros que constituem seu laço de realimentação. Da Fig. 3.3 vemos que & o laço de realimen- 
tação inferior que confere variabilidade ao comportamento do algoritmo LMS. Em particular, há 
duas quantidades distintas, o parámetro da taxa de aprendizagem п е o vetor de entrada x(n}, que 
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mín) din) + 


FIGURA 3.3 Representação por grafo 
de fluxo de sinal do algoritmo LMS пан) xl in) 


determinam a transmitância deste laço de realimentação. Portanto, deduzimos que o comportamen- 
to em relação à convergência (i.e., estabilidade) do algoritmo LMS é influenciado pelas caracteris- 
ticas estatisticas do vetor de entrada x(n) e pelo valor atribuido ao parâmetro taxa de aprendizagem 
Tl. Formulando esta observação de uma outra forma, podemos afirmar que para um determinado 
ambiente que fornece o vetor de entrada x(n), devemos ter cuidado na seleção do parâmetro da taxa 
de aprendizagem n para que o algoritmo LMS seja convergente, 

О primeiro critério para convergência do algoritmo LMS é a convergência da média, descrita 
por 


E[w(n)] = w, quando м — co (3.40) 


onde w, é a solucáo de Wiener. Infelizmente, este critério de convergência é de pouco valor prático, 
pois uma sequência de vetores aleatórios de média zero, mas de outro modo arbitrária, converge рог 
este critério. 

Do ponto de vista prático, a questão da convergência que realmente importa é a convergência 
do quadrado médio, descrita por 


E[e'(n)] — constante quando n — co (3.41) 


Infelizmente, uma análise detalhada da convergência do algoritmo LMS em relação ao quadrado 
médio é bastante complicada. Para tornar esta análise matematicamente tratável, são feitas normal- 
mente as seguintes suposições: 


1. Os vetores de entrada sucessivos x(1), x(2).... são estatisticamente independentes entre si. 

2. Mo passo de tempo n, o vetor de entrada x(n) é estatisticamente independente de todas as amos- 
tras anteriores da resposta desejada, isto ё, (1), d(2),..., din = 1). 

3. Mo passo de tempo m, a resposta desejada An) é dependente de x(n), mas estatisticamente 
independente de todos os valores anteriores da resposta desejada. 

4. О vetor de entrada x(n) e a resposta desejada dn) são retirados de populações com distribuições 
gaussianas. 


Uma análise estatistica do algoritmo LMS assim fundamentado é denominada a teoria da indepen- 
déncia (Widrow et al., 1976). 
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Invocando os elementos da teoria da independência e assumindo que o parâmetro da taxa de 
aprendizagem 7] seja suficientemente pequeno, Haykin (1996) mostra que o algoritmo LMS é con- 
vergente em relação ao quadrado médio desde que тү satisfaça a condição 

2 
б< < — (3.42) 
Å man 
onde A — ¿o maior autovalor da matriz de correlação В. Em aplicações típicas do algoritmo LMS, 
contudo, A não é conhecido. Para superar esta dificuldade, o traço de R, pode ser utilizado como 
uma estimativa conservadora para A_ „€ neste caso a condição da Eq. (3.42) pode ser reformulada 
como 


2 ee] (3.43) 


onde tr[R ] representa o traço da matriz R. Por definição, o traço de uma matriz quadrada é igual à 
soma de seus elementos na diagonal principal. Como cada elemento na diagonal da matriz de corre- 
lação R, é igual ao valor médio quadrado da entrada sensorial correspondente, podemos reformular 
a condição para convergência do algoritmo LMS pelo quadrado médio como segue: 

? 


WE 
17 soma dos valores médios quadrados das entradas sensoriais (3.44) 


Desde que o parametro da taxa de aprendizagem satisfaça esta condição, assegura-se também a 
convergência do algoritmo LMS pela média. Isto €, a convergência pelo quadrado médio implica a 
convergência pela média, mas o contrário não é necessariamente verdadeiro. 


Virtudes e Limitações do Algoritmo LMS 


Uma virtude importante do algoritmo LMS é a sua simplicidade, como exemplificado pelo resumo 
do algoritmo, apresentado na Tabela 3.1. Além disso, o algoritmo LMS é independente de modelo e 
consequentemente robusto, o que significa que pequenas incertezas do modelo e pequenas pertur- 
bacödes (ie, perturbações com pequena energia) resultam apenas em pequenos erros de estimativa 
(sinais de erro), Em termos matemáticos precisos, o algoritmo LMS é ótimo de acordo com o 
critério H^ (ou minimax) (Hassibi et al, 1993, 1996). A filosofia básica de otimização no sentido de 
HF é prover subsidios para o cenário de pior caso”: 


Se você não souber o que irá enfrentar, planeje para o pror caso e afimize, 


Por muito tempo, o algoritmo LMS foi visto como uma aproximação instantánea para o algoritmo 
da descida do gradiente. Entretanto, a otimização por Hº do algoritmo LMS fornece uma base 
rigorosa para este algoritmo largamente utilizado. Particularmente, ela explica a sua habilidade para 
funcionar satisfatoriamente tanto em um ambiente estacionário como em um ambiente não-estaci- 
onário. Por um ambiente “não-estacionário” entende-se aquele em que as estatísticas variam com o 
tempo. Em um ambiente assim, a solução ótima de Wiener assume uma forma variável no tempo, e 
o algoritmo LMS tem agora a tarefa adicional de seguir as variações dos parâmetros do filtro de 
Wiener. 

As limitações principais do algoritmo LMS são a sua taxa de convergência lenta e a sensibili- 
dade a variações na auto-estrutura da entrada (Haykin, 1996). O algoritmo LMS tipicamente requer 
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um número de iterações igual a cerca de 10 vezes a dimensionalidade do espaço de entrada para ele 
alcançar uma condição de estabilidade, A lenta taxa de convergência se torna particularmente séria 
quando a dimenstonalidade do espaço de entrada se torna alta. Assim como em relação à sensibili- 
dade a variações nas condições do ambiente, o algoritmo LMS é particularmente sensivel a varia- 
ções no número condicionante ou intervalo do autovalor da matriz de correlação R do vetor de 
entrada x. O número condicionante da matriz de correlação R,, representado por x(R ), é definido 
como 


y(R,)= Аза (3.45) 


onde A, © A, 530 os autovalores máximo e minimo da matriz R, respectivamente. A sensibilida- 
de do algoritmo LMS a variações no número condicionante y(R ) se torna particularmente aguda 
quando a amostra de treinamento à qual pertence o vetor de entrada x(n) é mal condicionada, isto é, 
quando o número condicionante (В) é alto.” Note que no algoritmo LMS a matriz hessiana, 
definida como a derivada segunda da função de custo E(w) em relação a w, é igual à matriz de 
correlação R; veja o Problema 3.8. Assim, na discussão aqui apresentada, poderiamos ter falado 
tanto em termos da hessiana como da matriz de correlação Е. 


3.6 CURVAS DE APRENDIZAGEM 


Uma maneira informativa de examinar o comportamento de convergência do algoritmo LMS, ou de 
um filtro adaptativo em geral, é traçar a curva de aprendizagem do filtro sob condições ambientais 
variáveis. A curva de aprendizagem é um gráfico do valor médio quadrado do erro de estimação, 
* UD. em função do numero de iterações, n. 

Imagine um experimento envolvendo um ensemble de filtros adaptativos, com cada filtro ope- 
rando sob o controle de um algoritmo especifico. Assume-se que os detalhes do algoritmo, incluin- 
do a inicialização, são os mesmos para todos os filtros. As diferenças entre os filtros surgem da 
maneira aleatória pela qual o vetor de entrada xin) e a resposta desejada din) são retirados da 
amostra de treinamento disponível, Para cada filtro, traçamos o valor do quadrado do erro de esti- 
mação (i.e, a diferença entre a resposta desejada e a saida real do filtro) em função do número de 
iterações. Uma curva de aprendizagem da amostra assim obtida consiste de exponenciais ruidosas, 
sendo o ruído causado pela natureza inerentemente estocástica do filtro adaptativo. Para calcular a 
curva de aprendizagem média do ensemble (i.e., o gráfico de & 2 221) em função de n), calculamos a 
média destas curvas de aprendizagem das amostras sobre o ensemble de filtros adaptativos utiliza- 
dos no experimento, suavizando com isso os efeitos do ruido. 

Assumindo que o filtro adaptativo seja estável, constatamos que a curva de aprendizagem 
média do ensemble começa com um valor grande de É 4, 0), determinado pelas condições iniciais, 
então decresce a uma taxa que depende do filtro utilizado e finalmente converge para um valor 
estável ® (e=), como ilustrado na Fig. 3.4, Com base nesta curva de aprendizagem, podemos defi- 
nir a taxa de convergência do filtro adaptativo como o número de iterações п, necessárias para 
reduzir © |. (n) a um valor escolhido arbitrariamente, tal como 10 por cento do valor inicial © (0). 

Uma outra característica útil de um filtro adaptativo que é deduzida da curva de aprendizagem 
média do ensemble é o desajustamento, representado por М. Suponha que É . represente o erro 
médio quadrado mínimo produzido pelo filtro de Wiener, projetado com base nos valores conheci- 
dos da matriz de correlação R, e do vetor de correlação cruzada г, Podemos definir o desajustamento 
para o filtro adaptativo como segue (Widrow e Stearns, 1985; Haykin, 1996): 
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FIGURA 3.4 Curva de aprendizagem idealizada do algoritmo LMS. 


El) En 


ET (3.46) 
= DUM. | 
E 


ma 


AC 


O desajustamento Al é uma quantidade adimensional, que fornece uma medida de quão perto do 
ótimo está o filtro adaptativo, no sentido do erro médio quadrado. Quanto menor for AL comparado 
com a unidade, mais precisa será a ação de filtragem adaptativa do algoritmo. Normalmente, A é 
expresso como uma porcentagem. Assim, por exemplo, um desajustamento de 10 por cento signifi- 
ca que o filtro adaptativo produz um erro médio quadrado (após completar a adaptação) que é 10 
por cento maior que o erro médio quadrado minimo € | produzido pelo filtro de Wiener correspon- 
dente. Tal desempenho é normalmente considerado na prática como satisfatório. 

Uma outra caracteristica importante do algoritmo LMS é o tempo de acomodação. Entretanto, 
não hà uma defimição única para о tempo de acomodação. Podemos, por exemplo, aproximar a 
curva de aprendizagem por uma exponencial única com constante de tempo média т. е assim usar 
T eg como uma medida grosseira do tempo de acomodação. Quanto menor for o valor de Т mais 
rápido será o tempo de acomodação (Le., o algoritmo LMS convergirá mais rapidamente para a 
condição "estável"). 

O desajustamento Al do algoritmo LMS é, dentro de um bom grau de aproximação, diretamente 
proporcional ao parâmetro da taxa de aprendizagem Тү, enquanto que a constante de tempo média 
T e © inversamente proporcional ao parâmetro da taxa de aprendizagem т] (Widrow e Stearns, 1985; 
Haykin, 1996). Conseqüentemente, temos resultados conflitantes no sentido de que se o parâmetro 
da taxa de aprendizagem for reduzido para reduzir o desajustamento, então o tempo de acomodação 
do algoritmo LMS é aumentado. De forma inversa, se o parâmetro da taxa de aprendizagem for 
aumentado para acelerar o processo de aprendizagem, então o desajustamento é aumentado. Deve- 
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se dar muita atenção à escolha do parâmetro da taxa de aprendizagem 1) no projeto do algoritmo 
LMS para produzir um desempenho global satisfatório, 


3.7 ESTRATÉGIAS DE VARIAÇÃO DA TAXA DE APRENDIZAGEM 


As dificuldades encontradas com o algoritmo LMS podem ser atribuídas ao fato de o parâmetro da 
taxa de aprendizagem ser mantido constante durante toda a computação, como mostrado por 


пл) = 7, para todo n (3.47) 


Esta é a forma mais simples possivel que o parámetro da taxa de aprendizagem pode assumir. Por 
outro lado, na aproximação estocástica, que se baseia no artigo clássico de Robbins e Monro (1951), 
o parâmetro da taxa de aprendizagem é variável no tempo. A forma particular de variação temporal 
mais comum na literatura sobre aproximação estocástica é descrita por 


тїл)= = (3.48) 
п 
onde с é uma constante. Uma escolha assim é realmente suficiente para garantir a convergência do 
algoritmo de aproximação estocástica (Ljung, 1977; Kushner e Clark, 1978). Entretanto, quando a 
constante c é grande, há o perigo de o parâmetro disparar para n pequeno. 
Como uma alternativa para as Eqs. (3.47) е (3.48), podemos utilizar a estratégia procura-entdo- 
converge, definida por Darken e Moody (1992) 


(3.49) 


onde rj, e 1 são constantes definidas pelo usuário. Nos estágios iniciais de adaptação envolvendo um 
número de iterações n pequeno comparado com a constante de tempo de busca t, o parámetro da 
taxa de aprendizagem (н) é aproximadamente igual am, e o algoritmo opera essencialmente como 
uma algoritmo LMS “padrão”, como indicado na Fig. 3.5. Assim, escolhendo um valor alto para т, 
dentro do intervalo permitido, esperamos que os pesos ajustáveis do filtro encontrem e permaneçam 
em torno de um "bom" conjunto de valores. Então, para um número de iterações n grande compara- 
do com a constante de tempo de busca t, o parâmetro taxa de aprendizagem nin) se aproxima de c/ 
n, onde c = tn, como ilustrado na Fig. 3.5. O algoritmo opera agora como um algoritmo de apren- 
dizagem estocástica tradicional, e os pesos convergem para seus valores ótimos. Assim, a estratégia 
de busca-então-converge tem o potencial de combinar as caracteristicas desejáveis do algoritmo 
LMS padrão com a teoria de aproximação estocástica tradicional. 


3.8 | O PERCEPTRON 


Chegamos agora à segunda parte do capitulo que trata do perceptron de Rosenblatt, daqui em diante 
denominado simplesmente de perceptron. Enquanto que o algoritmo LMS descrito nas seções ante- 
riores é construido em torno de um neurónio linear, o perceptron é construido em torno de um 
neurônio não-linear, isto é, o modelo de McCulloch-Pitts de um neurônio. Do Capítulo 1 lembra- 
mos que este modelo de neurônio consiste de um combinador linear seguido por um limitador 
abrupto (realizando a função sinal), como representado na Fig. 3.6.0 nó aditivo do modelo neuronal 
calcula uma combinação linear das entradas aplicadas às suas sinapses e também incorpora um bias 
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FIGURA 3.5 Estratégias de variação da taxa de aprendizagem 


Eniradns 
Limitador - 
abrupto 
FIGURA 36  irafo de fluxo 
m de sinal do perceptron 


aplicado externamente. À soma resultante, isto ё, o campo local induzido, é aplicado ao limitador 
abrupto. Correspondentemente, o neurônio produz uma saida igual a +1 se a entrada do limitador 
abrupto for positiva e -1 se ela for negativa. 

No modelo de grafo de fluxo de smal da Fig. 3.6, os pesos sinápticos do perceptron sáo repre- 
sentados por w, W,- 10. Correspondentemente, as entradas aplicadas ao perceptron são represen- 
tadas por x , X. x... О bias aplicado externamente ё representado por 5. Do modelo constatamos 
que a entrada do limitador abrupto ou o campo local induzido do neurónio é 


к= Y wy +b (3.50) 
dm 


O objetivo do perceptron é classificar corretamente o conjunto de estímulos aplicados externamente 
X. X... X, em uma de duas classes É ou €, A regra de decisão para a classificação é atribuir o 
ponto representado pelas entradas x, X, x, à classe € se a saida do perceptron y for +1 e à classe 
“E, se ela for -1. 
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Para compreender melhor o comportamento de um classificador de padrões, normalmente se 
traça um mapa das regiões de decisão no espaço de sinal m-dimensional abrangido pelas m variá- 
veis de entrada x, x...... х. Na forma mais simples do perceptron, existem duas regiões separadas 
por um hiperplano definido por 


Y mx +b=0 (3.51) 
1ml 
Isto está ilustrado na Fig. 3.7 para o caso de duas variáveis x, e x,, para o qual a fronteira de decisão 
toma a forma de uma linha reta. Um ponto (x,, x,) que se encontra acima da linha de fronteira é 
atribuido à classe 6, e um ponto (x , x,) que està abaixo da linha de fronteira é atribuido à classe ‘6, 
Note também que o efeito do bias 6 é meramente de deslocar a fronteira de decisão em relação à 
origem, 


X. 


Classe Es 


Classe Es 





FIGURA 3.7 Ilustração do 
hiperplano (neste exemplo, 
uma linha reta) como fronteira 
de decisão para um problema 
de classificação de padrões 


Fronteira de decisão і 
: bidimensional de duas classes 


WE, yr cd = 0 
Os pesos sinápticos w W. W do perceptron podem ser adaptados de iteração para iteração. 


Para a adaptação podemos utilizar uma regra de correção de erro conhecida como o algoritmo de 
convergência do perceptron. 


3.9 TEOREMA DE CONVERGÊNCIA DO PERCETRON 


Para derivar o algoritmo de aprendizagem por correção de erro para o perceptron, achamos mais 
conveniente trabalhar com à modelo modificado do grafo de fluxo de sinal da Fig. 3.8, Neste segun- 
do modelo, que é equivalente áquele da Fig. 3.6, o bias Hna) é tratado como um peso sináptico 
acionado por uma entrada fixa igual a +1. Podemos assim definir o vetor de entrada (m + 1)-por-1 


xin) E [+1, x (e), x m), m Rig 


onde n representa o passo de iteração na aplicação do algoritmo. Correspondentemente, definimos 
o vetor de peso (m + 1)-por-] como 


win) = [b(n), w (n), 10,01), … 20 (0)] 
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Entrada 4, = +] 
fixa 


ш m b 





FIGURA 3.8 Graio de fluxo Entradas 

da sinal equivalente do : M Limitador 
perceptron; por clareza a ii dificil 
dependência do tempo foi Eu Combinador 

omitida 


linear 


Correspondentemente, a saida do combinador linear pode ser escrita na forma compacta 


{и} = Y w nx, n) 
A (3.52) 


=w {nein} 


onde +0,(1) representa o bias Mn). Para n fixo, a equação w'x = 0, traçada em um espaço m- 
dimensional (traçada para um bias predeterminado) com coordenadas x „x... x, define um hiperplano 
como a superficie de decisão entre duas classes diferentes de entradas. 

Para o perceptron funcionar adequadamente, as duas classes €, e €, devem ser linearmente 
separaveis. Por sua vez, isto significa que os padrões a serem classificados devem estar suficiente- 
mente separados entre si para assegurar que a superficie de decisáo consista de um hiperplano. Esta 
exigência é ilustrada na Fig. 3.9 para o caso de um perceptron bidimensional. Na Fig. 3.92, as duas 
classes € e Є, estão suficientemente separadas entre si para que desenhemos um hiperplano (neste 
caso uma linha reta) como fronteira de decisão, Entretanto, se permitirmos que as duas classes є e 
є. se aproximem demais, como na Fig. 3.9b, elas se tornam nào linearmente separáveis, uma situ- 
ação que está além da capacidade do perceptron. 


Fromerra de 
decrsio 





(6) 


FIGURA 3.9 (a) Um par de padrões linearmente separáveis, (b) Um par de padrões 
não insarmente separáveis 


suponha então que as variaveis de entrada do perceptron se originem de duas classes linearmente 
separäveis. Seja #, o subconjunto de vetores de treinamento X (1) x (2)... que pertencem à classe É, e 
seja 3E, o subconjunto de vetores de treinamento x AI), x 42)... que pertencem à classe €. A união de Y 
, € Æ, é o conjunto de treinamento completo #. Dados os conjuntos de vetores # e Æ, para treinar о 
classificador, o processo de treinamento envolve o ajuste do vetor de peso w de tal forma que as duas 
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classes é, c É, sejam linearmente separáveis. Isto é, existe um vetor de peso w para o qual podemos 
afirmar 


wx > 0 para todo vetor de entrada x pertencente à classe ‘€, 


wx € O para todo vetor de entrada x pertencente à classe e, (3.53) 


Na segunda linha da Eq. (3.53), escolhemos arbitrariamente que o vetor de entrada x pertence à 
classe €, se wx = 0. Dados os subconjuntos de vetores de treinamento X, e #,, o problema de 
treinamento para o perceptron elementar é, então, encontrar um vetor de peso w tal que as duas 
desigualdades da Eq. (3.53) sejam satisfeitas, 

O algoritmo para adaptar o vetor de peso do perceptron elementar pode agora ser formulado 
como segue: 


1. Se o n-ésimo membro do conjunto de treinamento, x(n), é corretamente classificado pelo vetor 
de peso win) calculado na n-ésima iteração do algoritmo, então o vetor de peso do perceptron 
não é corrigido de acordo com a regra: 


w(n+1j=win) se w^x(n) > 0 e x(n) pertence à classe, 
win+1)= win) se w'x(n) € 0 e x(n) pertence à classe € , (3.54) 
2. Caso contrário, o vetor de peso do perceptron é atualizado de acordo com a regra 
wí(n-l)s w(n)-n(n)k(n) sew (n)x(n)>0 e x(n) pertence à classe €, (3.55) 


wín+l)=w(2)+n(0)x(1) se w'(m)x(n) < 0 e x(m) pertence à classe €, 


onde o parámetro da taxa de aprendizagem (n) controla o ajuste aplicado ao vetor de peso na 
iteração n. 


Se n(a) = 1 0, onde t] é uma constante independente do número da iteração n, temos uma regra de 
adaptação com incremento fixo para o perceptron. 

No que segue, primeiro provamos a convergência de uma regra de adaptação com incremento 
fixo para a qual т = 1. Claramente, o valor дет não é importante, desde que seja positivo, Um valor 
den + | meramente escala os vetores de padrões sem afetar a sua separabilidade. O caso de um тут) 
variável será considerado mais tarde. 

A prova é apresentada para a condição inicial w(0) = 0. Suponha que w'(n)x(n) < О para n = 1, 
2... е que o vetor de entrada x(n) pertença ao subconjunto Ф|. Isto ё, o perceptron classifica 
incorretamente os vetores x(1), x(2),… já que a segunda condição da Eq. (3.53) é violada, Então, 
com a constante (a) = 1, podemos usar a segunda linha da Eq. (3.55) para escrever 


win + 1) win) + x(n) para xin) pertencente à classe Ф. (3,56) 


Dada a condição inicial w(0) = 0, podemos resolver iterativamente esta equação para win + 1) 
obtendo o resultado 


win + 1)= x(1) + x(2) + -- + x(n) (3.57) 
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|| wk + 14P — [ОЮ = fec) 





2 Ж=],шп (3.64) 


Somando estas desigualdades para & = 1,..., n, € invocando a condição inicial assumida w(0) = 0, 
obtemos a seguinte desigualdade: 





wint DP YO 
| ) 2| | ae 
< np 
onde B é um número positivo definido por 
ES 2 
В= тах |x) (3.66) 


A Equação (3.65) afirma que o a norma euclidiana quadrática do vetor de peso w(n + 1) cresce no 
máximo linearmente com o número de iterações л. 

O segundo resultado da Eq. (3.65) está claramente em conflito com o resultado anterior da Eq. 
(3.61) para valores suficientemente grandes de л. De fato, podemos afirmar que п não pode ser 
maior que um valor n... para o qual as Eqs. (3.61) e (3.65) são ambas satisfeitas com o sinal de 
igualdade. Isto ё, n... é a solução da equação 


End 
Ha CU 





= Ab 


[wol 


Resolvendo para Haas dada uma solução w,, obtemos que 


_ Alel (3.67) 
mam. "wg o 
Provamos assim que para n(n) = 1 para todo n, e w(0) = 0, e desde que exista um vetor solução w, 
a regra para adaptar os pesos sinápticos do perceptron deve terminar após no máximo n iteragöes. 
Note também das Eqs (3.58), (3.66) e (3.67) que não existe uma solução única para w, ou A u 
Podemos agora formular 0 teorema da convergência com incremento fixo para O perceptron 
como segue (Rosenblatt, 1962): 


Sejam os subconjuntos de vetores de treinamento # e Ж, linearmente separáveis. Suponha que as 
entradas apresentadas ao perceptron se originem destes dois subconjuntos. O perceptron converge 
após n, iterações, significando que 
мл) = wa, + 1) = Win, + 2) =. 
é uma solução para n, < n... 
Considere a seguir o procedimento absoluto de correção de erro para a adaptação de um 
perceptron de camada única, рага o qual түл) é variável. Em particular, suponha que tin) seja o 


menor inteiro para o qual 


nidad) > |м (тух) 
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Note que o vetor de entrada x(n) é um vetor (m + 1)-por-1 cujo primeiro elemento é fixo em +1 
durante todos os cálculos. Correspondentemente, o vetor de peso w(n) é um vetor (m + 1)-por-1 
cujo primeiro elemento é igual ao bias An). Um outro ponto importante na Tabela 3.2 é: introduzi- 
mos a resposta desejada quantizada d(n), definida por 


+] se x(n) pertence à classe ©, 


din= | (3.70) 


—1 se x(n) pertence à classe É, 


Assim, a adaptação do vetor de peso w(n) pode ser resumida adequadamente na forma da regra de 
aprendizagem por correção de erro: 


win + 1) = win) + т[а(п)— у(пу]х(п) (3.71) 


onde тү é o parámetro da taxa de aprendizagem e a diferença d(n) — yin) assume o papel de um 
sinal de erro. O parâmetro da taxa de aprendizagem é uma constante positiva restrita ao intervalo O 
< 1] € 1. Ao atribuir um valor dentro deste intervalo, devemos considerar dois requisitos conflitantes 
(Lippmann, 1987): 


«+ Obtenção da média das entradas passadas para fornecer estimativas estáveis para o peso, o 
que requer um T] pequeno 

e Adaptação rápida em relação a variações reais das distribuições relacionadas ao processo 
responsável pela geração do vetor de entrada x, o que requer um ту grande 


3.10 RELAÇÃO ENTRE O PERCEPTRON E O CLASSIFICADOR BAYESIANO 
PARA UM AMBIENTE GAUSSIANO 


O perceptron mantém uma certa relação com o classificador de padrões clássico conhecido como o 
classificador bayesiano. Quando o ambiente é gaussiano, o classificador bayesiano se reduz a um 
classificador linear. Esta é a mesma forma assumida pelo perceptron. Entretanto, a natureza linear 
do perceptron não depende da suposição que as distribuições sejam gaussianas. Nesta seção, estu- 
damos esta relação e desse modo desenvolvemos uma visão mais aprofundada da operação do 
perceptron. Iniciamos a discussão com uma breve revisão do classificador bayesiano. 


Classificador Bayesiano 


No classificador bayesiano ou procedimento de teste pela hipótese de Bayes, minimizamos o risco 
médio, representado por $t. Para um problema de duas classes, representado pelas classes €, e 6, 
o risco médio é definido por Van Trees (1968): 


8t - c nf Ka], )dx + cp, | fax], Јах 
i 7 (3.72) 


жыл] f(x[6, dx c, p. | А (х6, )dx 
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onde os vários termos são definidos como segue: 


p, = probabilidade a priori que o vetor de observação x (representando uma realiza- 
ção do vetor aleatório X) seja retirado do subespaço X. com i= 1, 2 e p, +р, = 
| 

c, = custo de decidir em favor da classe ‘€, representada pelo subespaco % quando 


a classe € for verdadeira (i.e., о vetor de observação x é retirado do subespago 
Я. ), com (i, fy = 1, 2. 

f(x[6.) = função de densidade de probabilidade condicional do vetor aleatório X, dado 
que o vetor de observação x seja retirado do subespaço X, com і = 1,2. 


Os primeiros dois termos do lado direito da Eq. (3.72) representam decisões corretas (i.e, classi- 
ficações corretas), enquanto que os ultimos dois termos representam decisões incorretas (i.e. 
classificações incorretas). Cada decisão é ponderada pelo produto de dois fatores: o custo envol- 
vido na tomada de decisão e a frequência relativa (i.e, probabilidade a priori) com a qual ela 
DCOITO. 

A intenção é determinar uma estratégia para o risco médio minimo. Como exigimos que uma 
decisão deva ser tomada, cada vetor de observação x deve ser atribuído no espaço de observação 
global F., ou a # ou a €... Assim, 


#=# +, (3.73) 


Correspondentemente, podemos rescrever a Eq. (3.72) na forma equivalente 


Ж -«n| AE, Dux + сыр, | hale, Mix 


Y-Y, 


(3,74) 
жыр] At, Јах + cp, | Абар, dx 
E-E г 

onde c,, Sc, € CC, Observamos agora o fato de que 

| FAME) dx = | fx (х6 рах = 1 (3.75) 
Ё “a 
Assim, a Eq. (3.74) se reduz a 
R = cup esp. 
+ [гу(с\; — es] Gs) es -e (|6 d 228) 
E, 


Os primeiros dois termos no lado direito da Eq. (3.76) representam um custo fixo. Como o objetivo 
é minimizar o risco médio ft, podemos portanto, deduzir da Eq. (3.76) a seguinte estratégia para a 
classificação ótima: 
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1. Todos os valores do vetor de observação x para os quais o integrando (i.e, a expressão dentro 
dos colchetes) é negativo devem ser atribuidos ao subespaco Ж (1.e., à classe “É ) para que a 
integral dê uma contribuição negativa ao risco Ft. 

2. Todos os valores do vetor de observação x para os quais o integrando é positivo devem ser 
excluídos do subespaço X, (i.e., atribuidos à classe €.) para que a integral dê uma contribuição 
positiva ao risco Y, | 

3. Os valores de x para os quais o integrando for zero não têm efeito sobre o risco médio Jt e 
podem ser atribuidos arbitrariamente. Assumiremos que estes pontos serão atribuidos ao 
subespaço Y, (i.e, à classe €,). 

A partir desta fundamentação, podemos formular o classificador bayesiano como segue: 


Se a condição 
p (e, - е (Хе) 7 ple, Е е), f$.) 


for valida, atribua o vetor de observação x ao subespaco E, (Le. à classe Ч). Caso contrária, 
atribua x a Fte, à classe É. 


Para simplificar o desenvolvimento, dehina 








ACE, ) 
A(x)z ———— (3.77) 
FAS.) 
е 
Е = 2146: Co) (3.78) 


pite -t) 


A quantidade A(x), a razão de duas funções de densidade de probabilidade condicional, é chamada 
de razão de verossimilhança. A quantidade É é chamada de limiar do teste, Note que ambos A(x) © 
É são sempre positivos. Em termos destas duas quantidades, podemos agora reformular o classifica- 
dor bayesiano afirmando: 


Se, para um vetor de observação x, a razão de verossimilhança A(x) for maior que o limiar E, 
atribua x à classe Є, Caso contrário, atribua x à classe E, 


A Figura 3.10a mostra uma representação em diagrama em blocos do classificador bayesiano, Os 
dois pontos importantes neste diagrama em blocos são: 
1. O processamento de dados envolvido no projeto do classificador bayesiano está restrito inteira- 
mente à computação da razão de verossimilhança A(x). 
2. Esta computação é totalmente invariante aos valores atribuídos às probabilidades a priori e aos 
custos envolvidos no processo de tomada de decisão. Estas quantidades afetam meramente о 
valor do limiar 5. 


Do ponto de vista computacional, é mais conventente se trabalhar com o logaritmo da razão de 
verossimilhança em vez da própria razão de verossimilhança. Isto é permitido por duas razões. 
Primeiro, o logaritmo é uma função monótona. Segundo, a razão de verossimilhança A(x) e o limiar 
É são ambos positivos. Conseqüentemente, o classificador bayesiano pode ser implementado na 
forma equivalente mostrada na Fig. 3.10b. Por razões óbvias, o teste incorporado nesta última figu- 
га é chamado de teste do log da razão de verossimilhança. 
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Airibua x à classe 6] 
ze Alx) > E 

Caso contrário, 
аара x à classe 2. 






x Calculador da 
razio de Comparador 
verossimilhança 








E 
[2] 
a Ани x à classe "б | 
Calculador do log |i. ма} 
da razão de Comparador С log Ma de logs 
logk 


(bj 


FIGURA 3.10 Duas implementações equivalentes do classificador bayesiano: 
(a) teste da razão de verossimilhança, (b) Teste do log da razão de 
verossimilhança 


Classificador Bayesiano para uma Distribuição Gaussiana 


Considere agora o caso especial de um problema de duas classes, para o qual a distribuição subjacente 
é gaussiana. O vetor aleatório X tem um valor médio que depende de se ele pertence à classe '€, ou 
à classe &,. mas a matriz de covariância de X é a mesma para ambas as classes, Isso é equivalente a 
se dizer: 


Classe & : ElX]= р, 

E[(X - HX у) = € 
Classe, E[X]= p, 

E[(X — p, XX - LY] = C 


A matriz de covariância C é não-diagonal, o que significa que as amostras retiradas das classes E, 
e '©, são correlacionadas. Assume-se que C seja näo-singular, para que exista a sua inversa С-!. 

Com esta fundamentação, podemos expressar a função de densidade de probabilidade condi- 
cional de X como segue: 


| | 
E еки Сх = 13 (3.79) 
кари axe" jud vo) ER 


onde m é a dimensionalidade do vetor de observação x. 
Assume-se ainda que 


1. As duas classes €, e €, são equiprováveis: 


| 
т=р=; (3.80) 


PERCEPTRONS DE CAMADA Única 173 


2. Classificações incorretas acarretam o mesmo custo e classificações corretas não incorrem em 
custos: 


e e, =0c,=0 (3.81) 
Temos agora a informação necessária para projetar um classificador bayesiano para o problema de 


duas classes. Especificamente, substituindo a Eq. (3.79) em (3.77) e efetuando o logaritmo natural, 
obtemos (após simplificações): 


log A(x) = 6 IC (к-р) + Ды - р) Сх pu) 


-— PESE : (3.82) 
= (HHC xt (CA; nich) 
Substituindo as Eqs. (3.80) e (3.81) na Eq. (3.78) e efetuando o logaritmo natural, obtemos 
log = 0 (3.83) 


As Equações (3.82) e (3.83) expressam que o classificador bayesiano para o problema especificado 
é um classificador linear, como descrito pela relação 


у= мх +b (3.84) 

onde 
y 7 log A(x) (3.83) 
w=C"(p, -4,) (3.86) 


-lyre ag 
b= {ШС H: pE н) (3.87) 


Mais especificamente, o classificador consiste de um combinador linear com vetor de peso w e bias 
b, como mostrado na Fig. 3.11. 





FIGURA 3.11 Сга de fluxo de 
sinal do classificador gausslano 


Com base na Eq. (3.84), podemos agora descrever o teste do log da razão de verossimilhança para 
o nosso problema de duas classes, como segue: 


Se a saida y do combinador linear (incluindo o bias b) for positiva, atribua o vetor de observação 
x à classe E, Caso contrário, atribua este vetor à classe €, 
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A operação do classificador bayesiano para o ambiente gaussiano descrito aqui é análoga 
äquela do perceptron, na medida em que ambos são classificadores lineares; veja as Eqs. (3.71) e 
(3.84). Entretanto, existem algumas diferenças sutis e importantes entre eles, que devem ser exami- 
nadas cuidadosamente (Lippmann, 1987): 


* O perceptron opera sob a premissa de que os padrões a ser classificados sejam linearmente 
separdveis, As distribuições gaussianas dos dois padrões assumidas na derivação do classifi- 
cador bayesiano certamente se superpõem e, portanto, são ndo-separáveis. A extensão da 
superposição é determinada pelos vetores médios | e |, e pela matriz de covariáncia C. A 
natureza desta superposição está ilustrada na Fig. 3.12 para o caso especial de uma variável 
aleatória escalar (i.e, dimensionalidade m = 1). Quando as entradas são náo-separáveis е as 
suas distribuições se superpóem como ilustrado, o algoritmo de convergência do perceptron 
apresenta um problema porque as fronteiras de decisão entre as diferentes classes podem osci- 
lar continuamente. 


* Oclassificador bayesiano minimiza a probabilidade de erro de classificação. Esta minimização 
é independente da superposição entre as distribuições gaussianas relativas às duas classes. No 
caso especial ilustrado na Fig. 3.12, por exemplo, o classificador bayesiano sempre posiciona 
a fronteira de decisão no ponto onde as distribuições gaussianas para as duas classes € e, se 
cruzam. 


Frontera de 
decisão 


f, ia) 


FIGURA 3.12 Duas distribulcóas 
gaussianas unidimensionais CI Ck 
ascen TESE 


suparpostas © q 
i "2 





* Oalgoritmo de convergência do perceptron é náo-paramétrico, significando que ele não faz 
suposições a respeito da forma das distribuições envolvidas. Ele opera concentrando-se nos 
erros que ocorrem onde as distribuições sc superpõem. Pode, portanto, funcionar bem quando 
as entradas lorem geradas por mecanismos fisicos nào-lineares e quando as suas distribuições 
forem muito inclinadas e nào-gaussianas. O classificador bayesiano, ao contrário, é paramétrico, 
asua derivação é dependente da suposição que as distribuições envolvidas sejam gaussianas, o 
que pode limitar a sua área de aplicação. 

* O algoritmo de convergência do perceptron é adaptativo e simples de implementar; a sua 
exigência de armazenamento é restrita ao conjunto de pesos sinápticos e bias. Por outro lado, 
o projeto do classificador bayesiano é fixo; pode ser feito adaptativo, mas à custa do aumento 
das exigências de armazenamento е de cálculos mais complexos. 
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3.11 RESUMO E DISCUSSÃO 


O perceptron e um filtro adaptativo utilizando o algoritmo LMS sáo naturalmente inter-relaciona- 
dos, como evidenciado pela atualização de seus pesos. Na verdade, representam diferentes 
implementações de um perceptron de camada única baseado em aprendizagem por correção de 
erro. O termo “camada única” é usado aqui para significar que em ambos os casos a camada 
computacional consiste de um único neurônio — dai o titulo do capítulo. Entretanto, o perceptron e 
o algoritmo LMS diferem entre si em alguns aspectos fundamentais: 


+ Oalgoritmo LMS utiliza um neurônio linear, enquanto que o perceptron usa o modelo formal 
de um neurônio de McCulloch-Pitts. 

+ O processo de aprendizagem no perceptron é realizado para um número finito de iterações e 
então é encerrado. No algoritmo LMS, ao contrário, ocorre aprendizagem continua, signifi- 
cando que a aprendizagem acontece enquanto à processamento do sinal estã sendo realizado, 
de uma forma que nunca acaba. 


Um limitador abrupto constitui o elemento não-linear do neurônio de MeCulloch-Pitts. É tentador 
se colocar a questão: o perceptron teria melhor desempenho se ele utilizasse uma não-linearidade 
sigmóide em vez do limitador abrupto? Ocorre que as caracteristicas de regime permanente de 
tomada de decisão, de estado estável do perceptron são basicamente as mesmas, não importando se 
utilizamos um limitador abrupto ou um limitador suave como fonte de não-lincaridade no modelo 
neural (Shynk, 1990; Shynk e Bershad, 1991). Podemos, portanto, afirmar formalmente que, desde 
que nos limitemos ao modelo de um neurônio que consista de um combinador linear seguido de um 
elemento não-linear, então, independenternente da forma da não-lincaridade utilizada, urn perceptron 
de camada única pode realizar classificação de padrões apenas sobre padrões linearmente separá- 
VCIS. 

Encerramos esta discussão sobre perceptrons de camada única com uma nota histórica. O 
perceptron e o algoritmo LMS surgiram aproximadamente ao mesmo tempo, durante o final dos 
anos 1950. O algoritmo LMS realmente sobreviveu ao teste do tempo. Na verdade, ele se estabele- 
ceu como o carro-chefe do processamento adaptativo de sinal devido à sua simplicidade de 
implementação e à sua efetividade em aplicações. À importância do percepiron de Rosenblatt é 
principalmente histórica. 

A primeira crítica real ao perceptron de Rosenblatt foi apresentada por Minsky e Selfridge 
(1961). Minsky e Selfridge mostraram que o perceptron como definido por Rosenblatt não poderia 
generalizar nem em relação à noção de paridade, muito menos fazer abstrações genéricas. Ås limi- 
tações computacionais do perceptron de Rosenblatt foram subsequentemente enquadradas em uma 
fundamentação matemática sólida no famoso livro, Perceptrons, de Minsky e Papert (1969, 1988). 
Após a apresentação de uma análise matemática brilhante e bem-detalhada do perceptron, Minsky 
e Papert provaram que o perceptron como definido por Rosenblatt é inerentemente incapaz de fazer 
algumas generalizações globais baseadas em exemplos aprendidos localmente. No último capítulo 
do seu livro, Minsky e Papert fazem a conjectura de que as limitações que descobriram para o 
perceptron de Rosenblatt também seriam válidas para suas variantes, mais especificamente, as re- 
des neurais de múltiplas camadas. Extraindo da Seção 13.2 do seu livro (1969): 


O perceptron mostrou-se merecedor de estudo apesar de (e mesmo por causa de!) suas severas 
limitações. Ele tem muitas caracteristicas que atraem a atenção: sua linearidade; seu teorema de 
aprendizagem intrigante; sua clara simplicidade paradigmática como uma forma de computação 
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paralela. Não há razão para se supor que qualquer uma dessas virtudes persista na versão de múlti- 
plas camadas. Apesar disso, consideramos que é um importante problema a ser pesquisado para 
elucidar (ou rejeitar) nosso julgamento intuitivo de que a sua extensão para sistemas de múltiplas 
camadas é estéril. 


Esta conclusão foi largamente responsável por lançar sérias dúvidas sobre as capacidades 
computacionais não apenas do perceptron mas das redes neurais em geral até meados dos anos 80. 

Entretanto, a história mostrou que a conjectura feita por Minsky e Papert parece ser injustificada, 
pois temos agora várias formas avançadas de redes neurais que são mais poderosas, do ponto de 
vista computacional, que o perceptron de Rosenblatt. Por exemplo, os perceptrons de múltiplas 
camadas, treinados com o algoritmo de retropropagação discutido na Capítulo 4, as redes de função 
de base radial discutidas no Capitulo 5 e as máquinas de vetor de suporte discutidas no Capitulo 6, 
superam as limitações computacionais do perceptron de camada única, cada um à sua mancira 
individual, 


NOTAS E REFERÊNCIAS 


L A organização de rede na versão original do perceptron como considerada por Rosenblatt 
(1962) tem três tipos de unidades: unidades sensoriais, unidades associativas e unidades 
de resposta. As conexões das unidades sensoriais para as unidades associativas têm pesos 
fixos, e as conexões das unidades associativas para as unidades de resposta têm pesos 
variáveis. As unidades associativas ашат como pré-processadores projetados para extrair 
um padrão da entrada do ambiente, No que diz respeito aos pesos variáveis, a operação do 
perceptron de Rosenblatt original é essencialmente à mesma que aquela para o caso de 
uma única unidade de resposta (Le. único neurônio). 

2. Diferenciação em relação a um vetor 
Suponha que fw) represente uma função de valor real do vetor de parâmetros w. A deriva- 
da de Mw) em relação a w é definida pelo vetor: 








a [ar ar at 
dw | de, dw, dw, 


onde m é a dimensão do vetor w. Os dois casos seguintes são de interesse especial: 


CASO 1 A função f(w) é definida pelo produto interno: 


Assim, 
df 
— = i=1,2,.....m 
du, ' 
ou na forma matricial equivalente: 
a 
w^ (1) 


CASO 2 A função f(w) é definida pela forma quadrática: 
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3.2 


3.3 


Algoritmo LMS 


3.4 


3.5 


E | | E 
Elw)= 29 u^ pi 


onde &, Per, são constantes, 
Considere a função de custo 


] 4 3 E. 
Elw) =-0 -r w+-w'"R w 
| 2 xd 3 i 


0,3182 

а | 0,354 | 
Е 1 0,8182 
R, SL rin | | 


onde c é uma constante e 


(a) Encontre o valor ótimo w* para o qual £(w) alcança o seu valor minimo. 
(b) Use o método da descida mais ingreme para calcular w* para os dois valores seguin- 
tes de parámetro de taxa de aprendizagem: 
(i) п = 0,3 
(i) y = 1,0 
Para cada caso, desenhe a trajetória traçada pela evolução do vetor de peso win} no plano 
W. 
Nata: as trajetórias obtidas para os casos (1) e (11) da parte (b) devem corresponder às 
imagens apresentadas na Fig. 3.2. 
Considere a função de custo da Eq. (3.24) que representa uma forma modificada da soma 
de erros quadráticos definida na Eq. (3.17). Mostre que a aplicacáo do método de Gauss- 
Newton à Eq. (3.24) produz a atualização de peso descrita na Ёд. (3.23). 


A matriz de correlação R do vetor de entrada x(7) no algoritmo LMS é definida por 


| 0,5 
R, = 
05 1 
Defina o intervalo de valores para o parámetro taxa de aprendizagem п do algoritmo LMS 


para que seja convergente pelo quadrado médio. 
O algoritmo LMS normalizado é descrito pela seguinte recursão para o vetor de peso: 


Ш 


win + [je win) 4 ——-—-e(n)x(m 


[хот 


onde туё uma constante positiva e [x(n)i] é a norma euclidiana do vetor de entrada x(n). O 
sinal de erro e(n) é definido por 


ein) dln) Сар) 


onde din) é a resposta desejada. Para que o algoritmo LMS normalizado seja convergente 
pelo quadrado médio, mostre que 


Gærn 2 


3.6 


3.7 


3.8 


3.9 
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O algoritmo LMS é usado para implementar o cancelador de lóbulo lateral mostrado na 
Fig. 2.16. Estabeleça as equações que definem a operação deste sistema, assumindo a 
utilização de um único neurônio para a rede neural. 

Considere um previsor linear com seu vetor de entrada constituido das amostras хт — 1), 
x(n — 2),..., x(n — m), onde m é a ordem da previsão. O objetivo é utilizar o algoritmo LMS 
para fazer uma predição х (n) da amostra de entrada xia). Estabeleça as recursóes que 
podem ser usadas para calcular o peso derivativo w, 10,,... w do previsor. 

A contrapartida em termos de média de ensemble para a soma de erros quadráticos vista 
como uma função de custo é o valor médio quadrado do sinal de erro: 


J(w)- + Ele (m) 
= 5 Elam) “x (npw] 


(a) Assumindo que o vetor de entrada x(n) e a resposta desejada din) sejam retirados de 
um ambiente estacionário, mostre que 


J(w)- zei гж + SWR," 


onde 
g= Е |а) 
ты = E[x(n)d(n)] 
R, = Elx(mjx" (п) 


(b) Para esta função de custo, mostre que о vetor gradiente е a matriz hessiana de Aw) são 
expressos como segue, respectivamente: 


g=-r +R," 
H=R, 


(e) No algoritmo LMS/Newtan, o vetor gradiente g é substituido pelo seu valor instantá- 
neo (Widrow e Stearns, 1986). Mostre que este algoritmo, incorporando um parâmetro 
de taxa de aprendizagem Тү, é descrito por: 


Wn 1) = Wn) NR, x(n)d(n)- x' (тушп) 


A inversa da matriz de correlação R,, assumida como sendo definida positivamente, @ 

calculada à frente no tempo. 
Neste problema, revisitamos a memória por matriz de correlação discutida na Seção 2.11. 
Uma deficiência desta memória é que quando um padrão-chave x, é apresentado a cla, a 
resposta real y produzida pela memória pode não ser próxima o suficiente (no sentido 
euclidiano) da resposta desejada (padrão memorizado) y, para que a memória associe për- 
feitamente. Esta deficiência é inerente ao uso da aprendizagem hebbiana, que não possui 
realimentação da saída para a entrada. Como solução para esta deficiência, podemos in- 
corporar um mecanismo de corregúo de erro no projeto da memória, forçando-a a associar 
adequadamente (Anderson, 1983), 

Suponha que Min) represente a matriz de memória aprendida na iteração n do pro- 
cesso de aprendizagem por correção de erro. A matriz de memória Min) aprende a infor- 
mação representada pelas associações: 
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3.10 


X, — у, k=l 2, q 


(a) Adaptando o algoritmo LMS para este problema, mostre que o valor atualizado da 
matriz de memória é definido por 


Min + 1)=M(n)+ ni», = Minx, |х? 


onde 1 € o parámetro da taxa de aprendizagem. 

(b) Para a auto-associagäo, y, = X,. Para este caso especial, mostre que quando o número 
de iterações, n, se aproxima do infinito, a memória auto-associa perfeitamente, como 
mostrado por 


Мі) х, =x. k-1.2...4 


(c) О resultado mostrado na parte (b) pode ser visto como um problema de autovalor. 
Neste contexto, x, representa um autovalor de Mice). Quais são os autovalores de 
Mi) ? 

Neste problema, investigamos o efeito do bias sobre o número condicionante de uma ma- 

triz de correlação e consequentemente sobre o desempenho do algoritmo LMS, 
Considere um vetor aleatório X com a matriz de covariáncia 


ë ò vetor média 


il 


(a) Calcule o número condicionante да matriz de covariáncia C. 
(b) Calcule o número condicionante da matriz de correlagáo К. 
Comente o efeito do bias р sobre o desempenho do algoritmo LMS. 


O Perceptron de Rosenblatt 


3.11 


Neste problema, consideramos um outro método para derivar à equação de atualização 
para o perceptron de Rosenblatt. Defina a função do critério do perceptron (Duda e Hart, 
1973): 


Lime Y (-w'x) 


Ro wk 


onde òw) ¿o conjunto de amostras classificadas incorretamente pela escolha do vetor de 

peso w, Note que J(w) é definida como zero se não houver amostras classificadas 

incorretamente, e a saida é classificada incorretamente se w, 5 Ü, 

(a) Demonstre geometricamente que J (w) с proporcional à soma das distâncias euclidianas 
entre as amostras classificadas incorretamente e a fronteira de decisão. 

(b) Determine o gradiente de J iw) em relação ao vetor de peso w. 

(e) Usando o resultado obtido na parte (b), mostre que a atualização dos pesos do perceptron 
e 


3,14 


3.15 


3.16 
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wín+1)=w(n)+n(m) Y, x 


xa win 
onde (лу) é o conjunto das amostras classificadas incorretamente pelo uso do vetor de 
peso win), e r(n) é o parámetro da taxa de aprendizagem. Mostre que este resultado, para 
o caso de uma correção para amostra única, é basicamente o mesmo que aquele descrito 
pelas Eqs. (3.54) e (3.55). 
Verifique que as Eqs. (3.68) — (3.71), que resumem o algoritmo de convergência do 
perceptron, são consistentes com as Eqs. (3.54) e (3.55). 
Considere duas classes unidimensionais, com distribuições gaussianas É e É, que têm 
uma variância comum igual a 1. Os seus valores médios são 


H, =-10 
u, =+10 


Estas duas classes são essencialmente linearmente separáveis. Projete um classificador 
que separe estas duas classes. 

Suponha que no grafo de fluxo de sinal do perceptron mostrado na Fig. 3.6 o limitador 
abrupto seja substituido pela não-linearidade sigmóide: 


p 
qu) =tanh( =) 


onde + é o campo local induzido. As decisões de classificação feitas pelo perceptron são 
definidas como segue: 


O vetor de observação x pertence à classe €, se a saida y > Ө onde Ө € um limiar; 
caso contrário, X pertence a classe E 


Mostre que a fronteira de decisão assim construida é um hiperplano. 

(a) O perceptron pode ser usado para realizar numerosas funções lógicas. Demonstre a 
implementação das funções lógicas binárias E, OU e COMPLEMENTO, 

(b) Uma limitação básica do perceptron é que ele não pode implementar a função OU 
EXCLUSIVO, Explique a razão para esta limitação. 

As Equações (3.86) e (3.87) definem o vetor de peso e o bias do classificador bayesiano 

para um ambiente gaussiano. Determine a composição deste classificador para o caso em 

que a matriz de covariância € é definida por 


C-cgcI 


onde c é uma constante. 
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CAPÍTULO 4 


Perceptrons de Mültiplas Camadas 


41  INTRODUCAO 


Neste capitulo, estudamos as redes de mültiplas camadas alimentadas adiante, uma importante clas- 
se de redes neurais. Tipicamente, a rede consiste de um conjunto de unidades sensoriais (nås de 
fonte) que constituem a camada de entrada, uma ou mais camadas ocultas de nós computacionais 
e uma camada de saida de nós computacionais. O sinal de entrada se propaga para frente através da 
rede, camada por camada. Estas redes neurais são normalmente chamadas de perceptrons de multi- 
plas camadas (MLP, multilayer perceptron), as quais representam uma generalização do perceptron 
de camada única considerado no Capítulo 3. 

Os perceptrons de múltiplas camadas têm sido aplicados com sucesso para resolver diversos 
problemas dificeis, através do seu treinamento de forma supervisionada com um algoritmo muito 
popular conhecido como algoritmo de retropropagacdo de erro (error back-propagation). Este 
algoritmo é baseado na regra de aprendizagem por correção de erro. Como tal, pode ser visto como 
uma generalização de um algoritmo de filtragem adaptativa igualmente popular; o onipresente 
algoritmo do minimo quadrado médio (LMS) descrito no Capitulo 3 para o caso especial de um 
único neurônio linear. 

Basicamente, a aprendizagem por retropropagação de erro consiste de dois passos através das 
diferentes camadas da rede: um passo para frente, a propagação, e um passo para trás, a 
retropropagação. No passo para frente, um padrão de atividade (vetor de entrada) é aplicado aos 
nós sensoriais da rede e seu efeito se propaga através da rede, camada por camada, Finalmente, um 
conjunto de saídas é produzido como a resposta real da rede. Durante o passo de propagação, os 
pesos sinápticos da rede são todos fixos. Durante o passo para trás, por outro lado, os pesos sinápticos 
são todos ajustados de acordo com uma regra de correção de erro. Especificamente, a resposta real 
da rede é subtraida de uma resposta desejada (alvo) para produzir um sinal de erro. Este sinal de 
erro é então propagado para trás através da rede, contra a direção das conexões sinápticas — vindo 
dai o nome de “retropropagação de erro" (error back-propagation). Os pesos sinápticos são ajusta- 
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dos para fazer com que a resposta real da rede se mova para mais perto da resposta desejada, em um 
sentido estatístico. O algoritmo de retropropagação de erro é também referido na literatura como 
algoritmo de r<tropropagação (back-propagation). О processo de aprendizagem realizado com o 
algoritmo é chamado de aprendizagem por retropropagação. 

Um perceptron de múltiplas camadas tem três características distintivas: 


1. O modelo de cada neurônio da rede inclui uma função de ativação não-linear. O ponto impor- 
tante a se enfatizar aqui é que a nào-linearidade é suave (i.e, diferenciável em qualquer ponto), 
ao contrário da limitação abrupta utilizada no perceptron de Rosenblatt. Uma forma normal- 
mente utilizada de náo-linearidade que satisfaz esta exigência é uma ndo-linearidade sigmoide! 
definida pela função logistica: 

l 


dy | + expl- v) 


onde v, é o campo local induzido (i.e., a soma ponderada de todas as entradas sinápticas acres- 
cidas do bias) do neurônio j, e у, é a saída do neurônio. A presença de não-linearidades é impor- 
tante porque, do contrário, a relação de entrada-saida da rede poderia ser reduzida àquela de um 
perceptron de camada única. Além disso, a utilização da função logistica tem motivação bioló- 
gica, pois procura levar em conta a fase refratária de neurônios reais. 

2. A rede contém uma ou mais camadas de neurônios ocultos, que não são parte da entrada ou da 
saida da rede. Estes neurônios ocultos capacitam a rede a aprender tarefas complexas extraindo 
progressivamente as caracteristicas mais significativas dos padrões (vetores) de entrada. 

3. A rede exibe um alto grau de conectividade, determinado pelas sinapses da rede. Uma modifi- 
cação na conectividade da rede requer uma mudança na população das conexões sinápticas ou 
de seus pesos. 


É através da combinação destas características, juntamente com a habilidade de aprender da expe- 
riéncia através de treinamento, que o perceptron de múltiplas camadas deriva seu poder 
computacional. Estas mesmas caracteristicas, entretanto, são também responsáveis pelas deficiên- 
cias no estado atual de nosso conhecimento sobre o comportamento da rede. Primeiro, a presença 
de uma forma distribuída de não-linearidade e a alta conectividade da rede tornam dificil a análise 
teórica de um perceptron de múltiplas camadas. Segundo, a utilização de neurônios ocultos toma o 
processo de aprendizagem mais dificil de ser visualizado. Em um sentido implícito, o processo de 
aprendizagem deve decidir quais características do padrão de entrada devem ser representadas pe- 
los neurônios ocultos. O processo de aprendizagem, consequentemente, torna-se mais dificil por- 
que a busca deve ser conduzida em um espaço muito maior de funções possiveis, e deve ser feita 
uma escolha entre representações alternativas do padrão de entrada (Hinton, 1989). 

O emprego do termo “retropropagação” (back-propagation) parece ter sido desenvolvido após 
1985, quando seu uso foi popularizado pela publicação do livro seminal, intitulado Parallel 
Distributed Processing, (Rumelhar e McClelland, 1986). Veja a Seção 1,9 sobre notas históricas 
acerca do algoritmo de retropropagação. 

O desenvolvimento do algoritmo de retropropagação representa um marco nas redes neurais, 
pois fornece um método computacional eficiente para o treinamento de perceptrons de múltiplas 
camadas. Apesar de não podermos afirmar que o algoritmo de retropropagação fomeça uma solu- 
ção ótima para todos os problemas resolúveis, ele acabou com o pessimismo sobre a aprendizagem 
em máquinas de múltiplas camadas que havia sido causado pelo livro de Minsky e Papert (1969). 
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Organização do Capítulo 


Neste capítulo, estudamos os aspectos básicos do perceptron de múltiplas camadas, bem como a 
aprendizagem por retropropagação. O capítulo está organizado em sete partes. Na primeira parte, 
abrangendo as Seções de 4,2 a 4.6, discutimos assuntos relacionados à aprendizagem por 
retropropagação. Começamos com algumas considerações preliminares na Seção 4.2 para preparar 
o caminho para a derivação do algoritmo de retropropagação. Na Seção 4.3, apresentamos uma 
derivação detalhada do algoritmo, utilizando a regra da cadeia do cálculo; seguimos uma aborda- 
gem tradicional na derivação aqui apresentada. Um resumo do algoritmo de retropropagação é 
apresentado na Seção 4.4. Na Seção 4.5, ilustramos o uso do algoritmo de retropropagação resol- 
vendo o problema do XOR, um problema interessante que não pode ser resolvido por um perceptron 
de camada única. Na Seção 4.6, apresentamos algumas regras práticas ou heuristicas para fazer com 
que o algoritmo de retropropagação tenha melhor desempenho. 

A segunda parte, abrangendo as Seções de 4.7 a 4.9, explora o uso de perceptrons de múltiplas 
camadas para o reconhecimento de padrões. Na Seção 4.7, abordamos o desenvolvimento de uma 
regra para a utilização de um perceptron de múltiplas camadas para resolver o problema estatistico 
de reconhecimento de padrões. Na Seção 4,8, utilizamos um experimento computacional para ilus- 
trar a aplicação da aprendizagem por retropropagagáo para distinguir entre duas classes de distri- 
buicóes gaussianas, bidimensionais superpostas. Na Seção 4.9, é discutido o papel importante dos 
neurônios ocultos. 

A terceira parte do capitulo, abrangendo as Seções de 4,10 a 4,12, trata da superficie de erro. 
Na Seção 4.10, discutimos o papel fundamental da aprendizagem por retropropagação no cálculo 
das derivadas parciais de uma função aproximada. Discutimos então, na Seção 4.11, questões 
computacionais relativas à matriz hessiana da superficie de erro, 

A quarta parte do capítulo trata de vários assuntos relacionados com o desempenho de um 
perceptron de múltiplas camadas treinado com o algoritmo de retropropagação. Na Seção 4.12, 
discutimos a questão da generalização, a essência fundamental da aprendizagem. A Seção 4,13 
discute a aproximação de funções continuas por meto de perceptrons de múltiplas camadas. O uso 
de validação cruzada como uma ferramenta estatistica de projeto é discutido na Seção 4,14, Na 
Seção 4.15, descrevemos procedimentos para "podar" ordenadamente um perceptron de múltiplas 
camadas, mantendo (e frequentemente melhorando) o desempenho global. A poda de redes é dese- 
jável quando a complexidade computacional é a preocupação fundamental. 

A quinta parte do capítulo completa o estudo da aprendizagem por retropropagação. Na Seção 
4.16, resumimos as importantes vantagens e limitações da aprendizagem por retropropagação. Na 
Seção 4.17, investigamos heurísticas que fornecem normas sobre como acelerar a taxa de conver- 
géncia da aprendizagem por retropropagacio. 

Na sexta parte do capitulo, seguimos um ponto de vista diferente sobre a aprendizagem. 
Tendo como objetivo a melhoria da aprendizagem, discutimos a questão da aprendizagem super- 
visionada como um problema de otimização numérica na Seção 4.18, Em particular, descreve- 
mos o algoritmo do gradiente conjugado e o método quase-Newton para a aprendizagem supervi- 
sionada. 

A ültima parte do capitulo, a Secáo 4.19, trata do perceptron de mültiplas camadas propria- 
mente dito. Lá, descrevemos uma estrutura interessante de rede neural, o perceptron de múltiplas 
camadas de convolução. Esta rede tem sido usada com sucesso na solução de problemas dificeis de 
reconhecimento de padrões. 

O capitulo conclui com uma discussão geral na Seção 4.20. 
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4.2 ALGUMAS CONSIDERAÇÕES PRELIMINARES 


A Figura 4.1 mostra o grafo arquitetural de um perceptron de múltiplas camadas com duas camadas 
ocultas e uma camada se saida. Para preparar o terreno para uma descrição do perceptron de mülti- 
plas camadas na sua forma geral, a rede aqui mostrada é totalmente conectada. Isto significa que 
um neurônio em qualquer camada da rede está conectado a todos os nós/neurónios da camada 
anterior. O fluxo de sinal através da rede progride para frente, da esquerda para a direita e de camada 
em camada, 


Sinal de Sinal dc 
entrüda suida 
(estimula) (resposta) 





Camada de Primeira Segunda Cumada de 
entrada салаа camada saida 
ийа oculta 


FIGURA 4,1 Grato arquitetural de um percepiron de múltiplas camadas com duas camadas ocultas 


A Fig. 4.2 representa uma porção do perceptron de múltiplas camadas. Dois tipos de sinais são 
identificados nesta rede (Parker, 1987): 


FIGURA 4.2 ilustração das direções de dois 
luxos de sinal básicos em um регсерітоп de 
multiplas camadas: a propagação para frente 

E Pias йана de sinais funcionais e a reiropropagação de 
or imas de emo amais de emo 





1. Sinais Funcionais. Um sinal funcional é um sinal de entrada (estímulo) que incide no terminal 
de entrada da rede, propaga-se para frente (neurônio por neurônio) através da rede e emerge no 
terminal de saida da rede como um sinal de saída. Referimo-nos a este sinal como um “sinal 
funcional” por duas razões. Primeiro, presume-se que ele realize uma função útil na saída da 
rede. Segundo, em cada neurônio da rede através do qual um sinal funcional passa, o sinal é 
calculado como uma função de suas entradas e pesos associados, aplicados áquele neurônio. 
O sinal funcional é também denominado sinal de entrada. 
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2. Sinais de Erro, Um sinal de erro se origina em um neurônio de saida da rede e se propaga para 
trás (camada por camada) através da rede. Referimo-nos a ele como um “sinal de erro” porque 
sua computação por cada neurônio da rede envolve uma função dependente do erro, de uma 
forma ou de outra. 


Os neurônios de saida (nós computacionais) constituem a camada de saida da rede. Os neurônios 
restantes (nós computacionais) constituem as camadas ocultas da rede. Assim, as unidades ocultas 
não são parte da saída ou da entrada da rede — dai à sua designação como "ocultas". À primeira 
camada oculta é alimentada pela camada de entrada, constituida de unidades sensoriais (nós de 
fonte), as saídas resultantes da primeira camada oculta são por sua vez aplicadas à próxima camada 
oculta; e assim por diante para o resto da rede. 

Cada neurônio oculto ou de saida de um perceptron de múltiplas camadas é projetado para realizar 
dois cálculos: 


1. O cálculo do sinal funcional que aparece na saida de um neurônio, que é expresso como uma 
função não-linear do sinal de entrada e dos pesos sinápticos associados com aquele neurônio. 

2. О cálculo de uma estimativa do vetor gradiente (i.e, os gradientes da superficie de erro em 
relação aos pesos conectados às entradas de um neurômo), que é necessário para a retrópropagação 
através da rede. 


A derivação do algoritmo de retropropagação é bastante envolvente. Para aliviar a carga matemática 
envolvida na sua derivação, primeiro apresentamos um resumo das notações utilizadas na deriva- 
ção. 


Notação 


* Os indices i, j e k se referem a neurônios diferentes na rede; com os sinais se propagando 
através da rede da esquerda para a direita, o neurônio j se encontra em uma camada à direita do 
neurônio i, e o neurônio k se encontra em uma camada à direita do neurônio j, quando o 
neurônio j é uma unidade oculta. 

e Na iteração (passo de tempo) т, o n-ésimo padrão de treinamento (exemplo) é apresentado à 
rede. 

* O simbolo €(n) se refere à soma instantánea dos erros quadráticos ou energia do erro na 

iteração n. A média de (т) sobre todos os valores de n (1.e., o conjunto inteiro de treinamento) 

produz a energia média do erro média € . 

O simbolo e (n) se refere ao sinal de erro na saida do neurônio f, para a iteração n. 

O simbolo (п) se refere à resposta desejada para o neurônio / € é usada para calcular ein). 

O simbolo yin) se refere ao sinal funcional que aparece na saida do neurônio у, na iteração n. 

O simbolo tw (м) representa o peso sináptico conectando a saída do neurônio i à entrada do 

neurônio j, na iteração n. À correção aplicada a este peso na iteração п é representada por 

Aw (n). 

• O campo local induzido (i.e., a soma ponderada de todas as entradas sinápticas acrescida do 
bias) do neurônio na iteração n é representado por vink constitui o sinal aplicado à função de 
ativação associada com o neurônio j. 

* A função de ativação, que descreve a relação funcional de entrada-saida da näo-linearidade 
associada ao neurônio j, é representada por q (-). 
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O bias aplicado ao neurônio j é representado por b; o seu efeito é representado por uma 
sinapse de peso w, = b, conectada a uma entrada fixa igual a +1. 

O i-ésimo elemento do vetor (padrão) de entrada é representado por x (n). 

O k-ésimo elemento do vetor (padrão) de saída global é representado por o (n). 

O parâmetro da taxa de aprendizagem é representado por т. 

O simbolo m, representa o tamanho (i.e., o número de nós) da camada / do perceptron de 
múltiplas camadas; / = 0, 1,..., 2, onde L é a “profundidade” da rede. Assim, m, representa o 
tamanho da camada de entrada, m, representa o tamanho da primeira camada oculta e m, 
representa o tamanho da camada de saída. A notação m, = M também é usada. 


4.33 ALGORITMO DE RETROPROPAGAÇÃO 


O sinal de erro na saida do neurônio j, na iteração п (ie, a apresentação do n-ésimo exemplo de 
treinamento), é definido por 


e(n) = d(n) – yin), o neurônio j é um nó de saída (4.1) 


Definimos o valor instantâneo da energia do erro para o neurônio / como 4 en). 

Correspondentemente, o valor instantâneo &(n) da energia total do erro é obtido somando-se 
os termos хет) de todos os neurônios da camada de saida; são os únicos neurônios "visiveis" 
para os quais os sinais de erro podem ser calculados diretamente. Podemos assim escrever 


| 
Elm) = 52,000 (4.2) 
del 


onde o conjunto O inclui todos os neurônios da camada de saida da rede. Considere que N represen- 
te o número total de padrões (exemplos) contidos no conjunto de treinamento, À energia média do 
erro quadrado é obtida somando-se os É(n) para todos os м e então normalizando em relação ao 
tamanho do conjunto V, como mostrado por 


М 
ы = Ye (4.3) 


owi 

A energia instantánea do erro (и), e conseqüentemente a energia média do erro € , ,, é uma função 
de todos os parâmetros livres (i.e, pesos sinápticos e níveis de bias) da rede. Para um dado conjunto 
de treinamento, É representa a função de custo como uma medida do desempenho de aprendiza- 
gem. O objetivo do processo de aprendizagem é ajustar os parâmeiros livres da rede para minimizar 
Ф ca Para fazer esta minimização, utilizamos uma aproximação similar em raciocínio áquela usada 
para a derivação do algoritmo LMS no Capitulo 3. Especificamente, consideramos um método 
simples de treinamento no qual os pesos são atualizados de padrão em padrão até formar uma 
época, isto é, uma apresentação completa do conjunto de treinamento inteiro que está sendo proces- 
sado. Os ajustes dos pesos são realizados de acordo com os respectivos erros calculados para cada 
padrão apresentado à rede. A média aritmética destas alterações individuais de peso sobre o conjun- 
to de treinamento é, portanto, uma estimativa da alteração real que resultaria da modificação dos 
pesos baseada na minimização da função de custo € | sobre o conjunto de treinamento inteiro. 
Abordaremos a qualidade desta estimativa posteriormente nesta seção. 

Considere então a Fig. 4.3, que representa o neurônio / sendo alimentado por um conjunto de 
sinais funcionais produzidos por uma camada de neurônios à sua esquerda. O campo local induzido 
vín) produzido na entrada da função de ativação associada ao neurônio j é portanto 
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Meurônio j 


yg = +1 





wal) = bin) 
pln) = bf © 








Ил) e ) 
vin) a i eju) 


FIGURA 43 Grafo de fluxa de sinal ressaltando os detalhes dà neurônio de salda | 


v(n)= Vo ny n) (4.4) 


onde m é o número total de entradas (excluindo o bias) aplicadas ao neurônio j. O peso sináptico ти, 
(correspondendo à entrada fixa y, = +1) é igual ao bias b aplicado ao neurônio j. Assim, o sinal 


funcional yn) que aparece na saída do neurônio j na iteração m é 
убт) = een) (4.5) 


De uma forma similar ao algoritmo LMS, o algoritmo de retropropagação aplica uma correção 
Aw ín) ао peso sináptico w (л), que é proporcional à derivada parcial d'É(nydw (n). De acordo 
com a regra da cadeia do cálculo, podemos expressar este gradiente como: 


dé(n) _ Köln) de (m) dy, (т) àv (n) 
Әш (1) de (m) dy (л) àv, (n) dw (n) dig 











A derivada parcial d'É(n 01 (п) representa um fator de sensibilidade, determinando а direção de 
busca no espaço de pesos, para o peso sináptico w, 
Diferenciando ambos os lados da Eq. (4.2) em relação a ein), obtemos 


Bein) _ 
de(n) 40) (4.7) 





190 Eros Neurais 


Diferenciando ambos os lados da Eq. (4.1) em relação a y (n), obtemos 


de (n) 
ur (4.8) 





A seguir, diferenciando a Eq. (4.5) em relação a vn), obtemos 


дул), | 
3v (п) = qu) (4.9) 


onde o uso do apóstrofe (no lado direito) significa a diferenciação em relação ao argumento. Final- 
mente, diferenciar a Eq. (4.4) em relação a w (n) produz 





=~ = yin) (4.10) 
n 


O uso das Eqs. de (4.7) a (4.10) em (4.6) produz 
SS = e (9 o, o)» n) (4.11) 
A correção Aw (n) aplicada a w (л) é definida pela regra delta: 


din) 
du, (n) 





Aw (п) = -n (4.12) 


onde тү é o parámetro da taxa de aprendizagem do algoritmo de retropropagação. O uso do sinal 
negativo na Eq. (4.12) indica a descida do gradiente no espaço de pesos (ie, busca uma direção 
para a mudança de peso que reduza o valor de '£(n)). Correspondentemente, o uso da Eq. (4.11) em 
(4.12) produz 


Aw (n) = n8 (m fon) (4.13) 
onde o gradiente local à (n) é definido por 
E dein) 
dv (n) 
_ En) de (n) dy (a) 6.14) 
de (n) de (n) de (m) 
= en, (n) 


6 (n)- 














O gradiente local aponta para as modificações necessárias nos pesos sinápticos. De acordo com a 
Eq. (4.14), o gradiente local бн) para o neurônio de saida j é igual ao produto do sinal de erro e (n) 
correspondente para aquele neurônio pela derivada Фф Av im) da função de ativação associada. 

Das Eqs. (4.13) e (4.14) notamos que um fator-chave envolvido no cálculo do ajuste de peso 
Aw (n) é o sinal de erro ein) na saída do neurônio j. Neste contexto, podemos identificar dois casos 
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distintos, dependendo de onde na rede o neurônio j está localizado. No caso 1, о neurônio f é um nó 
de saída. Este caso é simples de se tratar, porque cada nó de saida da rede é suprido com uma 
resposta desejada particular, fazendo com que o cálculo do sinal de erro associado seja direto. No 
caso 2, 0 neurônio / é um nó oculto. Apesar de os neurônios ocultos não serem acessíveis diretamente, 
eles compartilham a responsabilidade por qualquer erro cometido na saída da rede. A questão, 
entretanto, é saber como penalizar ou recompensar os neurônios ocultos pela sua parcela de respon- 
sabilidade. Este problema é o problema de atribuição de credito considerado na Seção 2.7. Ele é 
resolvido de forma elegante retropropagando-se os sinais de erro através da rede. 


Caso 1 O Neurônio j é um Nó de Saida 


Quando o neurônio j está localizado na camada de saida da rede, ele é suprido com uma resposta 
desejada particular. Podemos utilizar a Eq. (4.1) para calcular o sinal de erro ein) associado com 
este neurônio, veja a Fig. 4.3. Tendo-se determinado e (n), calcula-se diretamente o gradiente local 
6 (n), usando a Eq. (4.14). 


Caso 2 O Neurónio j é um Nó Oculto 


Quando o neurónio j está localizado em uma camada oculta da rede, nào existe uma resposta dese- 
jada especificada para aquele neurônio. Correspondentemente, o sinal de erro para um neurónio 
oculto deve ser determinado recursivamente, em termos dos sinais de erro de todos os neurónios aos 
quais o neurônio oculto está diretamente conectado; aqui é onde o desenvolvimento do algoritmo de 
retropropagação se torna complicado. Considere a situação apresentada na Fig. 4.4, que representa 
o neurônio j como um nó oculto da rede. De acordo com a Eq. (4.14), podemos redefinir o gradiente 
local 8 (n) para o neurônio oculto j como 


Ө (п) dr An) 
dy,(n) de (n) (4.15) 
Fin) 


= q(v,(m), o neurônio j é oculto 


dv, (n) ” 


б (т) = 





onde na segunda linha utilizamos a Eq. (4.9). Para calcular a derivada parcial d'É(nyay (n). pode- 
mos proceder como segue. Da Fig. 4.4 vemos que 


*(mn)- „Eem, o neurônio k é um nó de saida (4.16) 
bel 
que é a Eq. (4.2) com o indice k utilizado no lugar do indice j. Fizemos isso para evitar a confusão com 
o uso do indice j, que se refere ao neurônio oculto no caso 2. Diferenciando а Eq. (4.16) em relação ao 
sinal funcional vin), obtemos 


Kein) _ Ye de, (n) 


Bv) E y (и) RD) 


A seguir, utilizamos a regra da cadeia para a derivada parcial de Andy (m) e rescrevemos a Eq. 
(4.17) na forma equivalente 
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Мешти i Meuróni k 
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4 шул) = bin) М 
Ee dir) 
win) vm) e yAn) шп) “ә зн) ФС) (m) A 
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FIGURA 4.4 Gralo de fluxa de sinal ressaltando ов detalhes do neurônio de salda k conectado 
Bao nevurômo occulte Fi 


gen) = , de, (n) cho, (1) 
dv, (m) E puedo du, (n) dy, (n) (4.18) 








Entretanto, da Fig. 4.4 notamos que 


е (п) = 4,(л)- ут) 


=d;(n)- q, (v, (n)). o neurônio & é um nó de saida (4.19) 
Assim, 
de, (п) ғ 
ne = — 1) 
oun io, QU) (4.20) 
Também notamos da Fig. 4.4 que para o neurônio k o campo local induzido é 
9,(1)= Y w, (т) (п) (4.21) 


onde m é o número total de entradas (excluindo o bias) aplicadas ao neurônio k. Aqui novamente, o 
peso sináptico w (m) é igual ao bias A (л) aplicado ao neurônio А, e a entrada correspondente está 
fixa no valor +1. Diferenciar a Eq. (4.21) em relação a y (4) produz 
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du, (mn) 


y 0m (4.22) 
Utilizando as Eqs. (4.20) e (4.22) em (4.18), obtemos a derivada parcial desejada: 
En = - V e (mø; (v, (nw, (m) 
(n) А 
* (4.23) 


=-) 8, (n) aw, (n) 


onde, na segunda linha, utilizamos a definição do gradiente local ё, (л) dada na Eq. (4.14), com о 
indice k substituído por j. 

Finalmente, utilizando a Eq. (4.23) em (4.15), obtemos a fórmula de retropropagação para o 
gradiente local 8 (n) como descrito: 


б (п) = (o, (n) У 5, (пуш, (л), o neurônio j é oculto (4.24) 


A Figura 4.5 mostra a representação por grafo de fluxo de sinal da Eq. (4.24), assumindo que a 
camada de saida consista de neurônios m,. 


Bim) ee (ny) 


en) 


e, (n) 
FIGURA 45 Grafo de fluxo 
de sinal de uma parte do 

sistema adjunta pertencente 
à retropropagação dos sinais 
de emo Pim (и (0) 





en (1) 


O fator qm) envolvido no cálculo do gradiente local (n) nå Eq. (4.24) depende unicamente da 
função de ativação associada ao neurônio oculto j. O fator restante envolvido neste cálculo, ou seja, 
o somatório sobre &, depende de dois conjuntos de termos. O primeiro conjunto de termos, os 6 (n), 
requer conhecimento dos sinais de erro e (л), para todos os neurônios que se encontram na camada 
imediatamente à direita do neurônio oculto j e que estão diretamente conectados ao neurônio /: veja 
a Fig. 4.4. O segundo conjunto de termos, os ww n), consiste dos pesos sinápticos associados com 
estas conexões. 

Agora resumimos as relações que derivamos para o algoritmo de retropropagação, Primeiro, а 
correção Аш (n) aplicada ao peso sináptico conectando o neurônio i ao neurônio j é definida pela regra 


delta: 
Correção Parâmetro da Gradiente | | sinal deentrada 
de peso |= | taxadeaprendizagem |-| local |-| de neurônio j (4,25) 
Aw, n) n à (n) yn) 


Segundo, o gradiente local ín) depende de sc o neurónio j é um nó de saída ou se é um nó oculto: 


194 Rrors Neuman 


1. Se oneurûnioj é um nó de saída, ô(n}é igual ao produto da derivada ф (v (лу) pelo sinal de erro 
e (1), ambos sendo associados ao neurônio j; veja a Eq. (4.14). 

2. Seo neurônio j é um nó oculto, бп) é igual ao produto da derivada associada q Qon) pela 
soma ponderada dos às calculados para os neurônios na próxima camada oculta ou camada de 
saida que estão conectados ao neurônio j; veja a Eq. (4.24). 


Os Dois Passos da Computação 


Na aplicação do algoritmo de retropropagação, distinguem-se dois passos distintos de computação. 
O primeiro passo é conhecido como passo para frente, ou propagação, e o segundo como passo para 
trás, ou retropropagação. 

No passo para frente, os pesos sinápticos se mantêm inalterados em toda a rede e os sinais 
funcionais da rede são calculados individualmente, neurônio por neurônio. O sinal funcional que 
aparece na saida do neurônio j é calculado como 


ym = (vin) (4.26) 
onde 1 (1) ё o campo local induzido do neurônio j, definido por 
v Am) о OTAC (4.27) 
dell 


onde m é o número total de entradas (excluindo o bias) aplicadas ao neurônio у, е win) é o peso 
sináptico que conecta o neurônio i ao neurônio у, € vin) é o sinal de entrada do neurônio j ou 
equivalentemente, o sinal funcional que aparece na saida do neurônio é. Se o neurônio f estiver na 
primeira camada oculta da rede, m = m, e o indice i se refere ao i-ésimo terminal de entrada da rede, 
para o qual escrevemos 


yin) = xin) (4.28) 


onde x (1) é o i-ésimo elemento do vetor (padrão) de entrada. Se, por outro lado, o neurônio j estiver 
na camada de saida da rede, m = m, co indice ў se refere ao j-ésimo terminal de saida da rede, para 
o qual escrevemos 


vin) = Of H) (4.29) 


onde o (n) € o -ésimmo elemento do vetor (padrão) de saída. Esta saida é comparada com a resposta 
desejada d (n), obtendo-se o sinal de erro e (лт) para o j-ésimo neurônio de saída. Assim, a fase de 
propagação da computação começa na primeira camada oculta, com a apresentação do vetor de 
entrada, e termina na camada de saída calculando о sinal de erro de cada neurônio desta camada. 
O passo de retropropagação, por outro lado, começa na camada de saída passando-se os sinais 
de erro para a esquerda através da rede, camada por camada, e recursivamente calculando-se o 6 
(i.e. o gradiente local) de cada neurônio. Este processo recursivo permite que os pesos sinápticos 
sofram modificações de acordo com a regra delta da Eq. (4.25). Para um neurônio localizado na 
camada de saida, o ё simplesmente igual ao sinal de erro daquele neurônio multiplicado pela 
primeira derivada da sua n&o-lincaridade. Assim, utilizamos a Eq. (4.25) para calcular as modifica- 
ções dos pesos de todas as conexões que alimentam a camada de saída. Dados os 6s para os neurônios 
da camada de saida, utilizamos, a seguir, a Eq. (4.24) para calcular os ås para todos os neurônios na 
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penúltima camada, e consequentemente as modificações dos pesos de todas as conexões que a 
alimentam. А computação recursiva continua, camada por camada, propagando as modificações 
para todos os pesos sinapticos da rede. 

Note que para a apresentação de cada exemplo de treinamento, o padrão de entrada está fixo ("pre- 
so”) durante todo o ciclo, englobando o passo de propagação seguido pelo passo de retropropagação. 


Função de Ativação 


O cálculo do б para cada neurônio do perceptron de múltiplas camadas requer o conhecimento da 
derivada da função de ativação qp(-) associada àquele neurônio. Para esta derivação existir, necessi- 
tamos que a função q(-) seja continua. Em termos básicos, a diferenciabilidade é a única exigência 
que a função de ativação deve satisfazer. Um exemplo de uma função de ativação não-linear, conti- 
nuamente diferenciável normalmente utilizada nos perceptrons de múltiplas camadas é a não- 
linearidade sigmóide, descrevemos duas formas desta função: 


1. Função Logistica. Esta forma de náo-linearidade sigmóide na sua forma geral é definida por 


CI SUE. SØ " 
gw, Gn) = LrexpCav (0) а>б e < v, (n) « (4.30) 


onde v (n) é o campo local induzido do neurônio j. De acordo com esta nào-linearidade, a amplitude 
da saída se encontra dentro do intervalo 0 5у,5 1. Diferenciando а Eq. (4.30) em relação a vin), 
obtemos 

aexp(-av,(1)) (4.31) 


pato, (mn) = 
7 [L+expao im] 


Com yn) = (1 0), podemos eliminar o termo exponencial exp(-av(n)) da Eq. (4.31), e assim 
expressar a derivada фр (v(ny) como 


poa) = a yo! = vol (4.32) 
Para um neurônio j localizado na camada de saida, y(n) = on). Assim, podemos expressar o 
gradiente local para o neurônio j como 


O (n) = е,(п)ф',(>,(п)) 


(4.33) 
zs ald (mn) o (n)]o, (rJ I -0 Um) o neurônio / é um nó de saida 


onde o (n) é o sinal funcional na saida do neurônio j, e dm) é a resposta desejada para ele. Por outro 
lado, para um neurônio oculto arbitrário j, podemos expressar o gradiente local como 
8 (п) = фо (n) у 5, (mo, (т) 
! (4.34) 
= ay (9! =P», (TY denota), o neurônio j é oculto 


Note da Eq. (4.32) que a derivada q" Avin alcança o seu valor máximo em yin) = 0,5, eo seu valor 
minimo (zero) em y (nm) = (1, ou yr) = 1,0. Como o valor da modificação do peso sináptico da rede 
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é proporcional à derivada (rn, resulta que para uma função de ativação sigmóide, os pesos 
sinápticos são modificados mais intensamente para aqueles neurônios da rede onde os sinais 
funcionais estão no meio do seu intervalo. De acordo com Rumelhart et al. (19862), é esta caracte- 
rística da aprendizagem por retropropagação que contribui para a sua estabilidade como um algoritmo 
de aprendizagem, 

2 Função tangente hiperbólica. Uma outra forma normalmente utilizada de náo-linearidade 
sigmóide é a função tangente hiperbólica, que na sua forma mais geral é definida por 


uon) а капаем), (a, b) > 0 (4.35) 


onde a e h são constantes. Na realidade, a função tangente hiperbólica é a função logistica reescalada 
e modificada por um bias. A sua derivada em relação a v (n) é dada por 


pólo, n) = absech (bv (n) 
= ab(1 - tanh? (Бо, (1))) (4.36) 
b 
- _[а pen JE +}, (л) 
Para um neurónio f localizado na camada de saída, o gradiente local é 


0 (n) z e (mv (n) 


b (4.37) 
= AGAC o (n)a o Ana - o (n) 
Рага um neurônio | em uma camada oculta, temos 
б (n) qi, (n) 5, (aan, (0) 
| (4.38) 


= la - y mia * y, G0] б, (ro, (т), o neurônio ў € oculto 


Utilizando às Eqs. (4.33) e (4.34) para a função logistica e as Eqs. (4.37) e (4.38) para a função 


tangente hiperbólica, podemos calcular o gradiente local 6, sem a necessidade do conhecimento 
explícito da função de ativação. 


A Taxa de Aprendizagem 


O algoritmo de retropropagação fornece uma “aproximação” para a trajetória no espaço de pesos 
calculada pelo método da descida mais ingreme. Quanto menor for o parâmetro da taxa de aprendi- 
zagem T], menor serão as variações dos pesos sinápticos da rede, de uma iteração para a outra, e 
mais suave será a trajetória no espaço de pesos. Esta melhoria, entretanto, é obtida à custa de uma 
taxa de aprendizagem lenta. Por outro lado, se fizermos o parâmetro da taxa de aprendizagem т] 
muito grande, para acelerar a taxa de aprendizagem, as grandes modificações nos pesos sinápticos 
resultantes podem tornar a rede instável (i.e., oscilatória). Um método simples de aumentar a taxa 
de aprendizagem, evitando no entanto o perigo de instabilidade, é modificar a regra delta da Ea. 
(4.13) incluindo um termo de momento? como mostrado por (Rumelhart et al, 19864) 
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Aw (n) = Aw (n — 1) + 152) 01) (4.39) 


onde a é usualmente um número positivo chamado de constante de momento. Ele controla o laço de 
realimentação que age em torno de Aw (n), como ilustrado na Fig. 4.6, onde т! ёо operador atraso 
unitário, A Equação (4.39) é chamada de regra delta generalizada; ela inclui a regra delta da Eq. 
(4.13) como um caso especial (i.e., c = 0). 


Ein) vn) 
ÉD " 
FIGURA 4.6 Gralo de fluxo de 
sinal ilusirando о efeito da corts- 
tante de momento a Ам in = 1) Aw. (n) 


Para ver o efeito da seqüéncia de apresentações de padrões sobre os pesos sinápticos devido à 
constante de momento at, rescrevemos a Eq. (4.39) como uma série temporal com indice t. O indice 
t vai do tempo inicial O ao tempo corrente n. À Equação (4.39) pode ser vista como uma equação de 
diferenças de primeira ordem para a correção de peso Aw (n). Resolvendo esta equação para Ato (п), 
temos 


лш (n) = ту o" 76, 0)») (4.40) 


que representa urna série temporal de comprimento п + 1. Das Eqs. (4.11) e (4.14) notamos que o 
produto б{пуу{п) é igual a —(n)/dw | An). Conseqüentemente, podemos rescrever a Eq. (4.40) na 
forma equivalente 


i а-г DELL) 
А =- e 
av (n) não ow, (0) 


Com base nesta relação, podemos fazer as seguintes observações (Watrous, 1987; Jacobs, 1988): 


(4.41) 


1. O ajuste corrente Aw (n) representa a soma de uma série temporal ponderada exponencialmente. 
Para que a série temporal seja convergente, a constante de momento deve ser restrita ao intervalo O 
< 104 < 1. Quando à é zero, o algoritmo de retropropagação opera sem o momento. À constante de 
momento a também pode ser positiva ou negativa, apesar de ser improvável que um ct negativo seja 
usado na prática. 

2. Quando a derivada parcial a'é(ryew (0) tem o mesmo sinal algébrico em iterações consecuti- 
vas, a soma ponderada exponencialmente, Aw (n), cresce em magnitude, e assim o peso ш (н) É 
ajustado por um valor grande. A inclusão do momento no algoritmo de retropropagação tende a 
acelerar a descida em direções com declividade constante. 

3. Quando a derivada parcial d'é(ryiow ft) tem sinais opostos em iterações consecutivas, a soma 
ponderada exponencialmente, Aw (n), diminui em magnitude, de modo que o peso tw (л) é ajustado 
por uma quantidade menor. À inclusão do momento no algoritmo de retropropagação tem um efeito 
estabilizador nas direções que oscilam em sinal, 


A incorporação do momento no algoritmo de retropropagação representa uma modificação 
pequeña na atualização dos pesos, contudo ela pode ter alguns efeitos benéficos sobre o comporta- 
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mento de aprendizagem do algoritmo. O termo de momento pode também ter o beneficio de evitar 
que o processo de aprendizagem termine em um minimo local raso na superficie de erro. 

Na derivação do algoritmo de retropropagação, assumiu-se que o parâmetro da taxa de apren- 
dizagem é uma constante representada por 1. Na realidade, entretanto, ele deveria ser definido 
como 1] ; isto ё, o parâmetro da taxa de aprendizagem deveria ser dependente da conexão. De fato, 
muitas coisas interessantes podem ser feitas se o parámetro da taxa de aprendizagem for diferente, 
em diferentes partes da rede. Fornecemos mais detalhes sobre esta questão em seções subsequentes. 

E também digno de nota que na aplicação do algoritmo de retropropagação podemos escolher 
que todos os pesos sinápticos das rede sejam ajustáveis, ou podemos restringir qualquer número de 
pesos da rede a permanecerem fixos durante o processo de adaptação. Neste último caso, os sinais 
de erro são retropropagados através da rede na forma usual; entretanto, os pesos sinápticos são 
deixados inalterados. Isto pode ser realizado simplesmente fazendo-se o parâmetro da taxa de apren- 
dizagem т, para o peso sináptico w, igual a zero. 


Modos de Treinamento Seqüencial e por Lote 


Em uma aplicação prática do algoritmo de retropropagação, o aprendizado resulta das muitas apre- 
sentações de um determinado conjunto de exemplos de treinamento para o perceptron de múltiplas 
camadas. Como mencionado anteriormente, uma apresentação completa do conjunto de treinamen- 
to inteiro é denominada uma época. O processo de aprendizagem é mantido em uma base de época 
em época até os pesos sinápticos e os níveis de bias se estabilizarem e o erro médio quadrado sobre 
todo o conjunto de treinamento convergir para um valor minimo. É uma boa prática tornar aleató- 
ria a ordem de apresentação dos exemplos de treinamento, de uma época para a seguinte. Esta 
aleatoriedade tende a tornar a busca no espaço de pesos estocástica sobre os ciclos de aprendiza- 
gem, evitando assim a possibilidade de ciclos limitados, na evolução dos vetores de pesos sinápticos; 
os ciclos limitados são discutidos no Capitulo 14. 


Para um dado conjunto de treinamento, a aprendizagem por retropropagação pode então pro- 
ceder de uma entre duas formas básicas: 


1. Modo Sequencial. O modo següencial da aprendizagem por retropropagação é também cha- 
mado de modo on-line, modo padrão ou modo estocástico. Neste modo de operação, a atualização 
dos pesos é realizada após a apresentação de cada exemplo de treinamento, este é o modo de apre- 
sentação para o qual se aplica a derivação do algoritmo de retropropagação apresentado, Para ser- 
mos específicos, considere uma época consistindo de N exemplos (vetores) de treinamento arranja- 
dos na ordem (x(1), dl}. .... (x( V), (Му), O primeiro par de exemplo (x(1), d(1)) da época é 
apresentado à rede, e a sequência de computações para frente e para trás, descritas anteriormente, © 
realizada, resultando em certos ajustes dos pesos sinápticos e niveis de bias da rede. Então, o segun- 
do par de exemplo (x(2), di2)) da época é apresentado e a sequência de computações рага frente e 
para trás é repetida, resultando em novos ajustes dos pesos sinápticos e niveis de bias. Este processo 
continua até que o último par de exemplo (xi), d(N)) da época seja considerado. 

2. Modo por Lote. No modo por lote da aprendizagem por retropropagação, o ajuste dos pesos ё 
realizado apds a apresentação de todos os exemplos de treinamento que constituem uma época. 
Para uma época particular, definimos a função de custo como o erro médio quadrado das Eqs. (4.2) 
e (4.3), reproduzidos aqui na forma composta: 


NEP Y Y en) (4.42) 


Amb (nd 
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onde o sinal de erro e(n) é relativo ao neurônio de saída j do exemplo de treinamento n, o qual é 
definido pela Eq. (4.1). O erro ein) é igual à diferença entre dl (11) eyin), que representam o j-&simo 
elemento do vetor resposta desejada dí.) e o valor correspondente da saida da rede, respectivamen- 
te. Na Eq. (4.42), o somatório interno em relação аў é realizado sobre todos os neurônios da camada 
de saida da rede, enquanto que o somatório externo em relação a п é realizado sobre todo o conjunto 
de treinamento da época considerada. Para um parâmetro da taxa de aprendizagem тү, o ajuste 
aplicado ao peso sináptico w,, conectando o neurônio ѓ ao neurônio j, é definido pela regra delta 


Ашу = nt 
"nx de (п) me 
ur ur 


Para calcular a derivada parcial de (now, procedemos da mesma forma como anteriormente. De 
acordo com a Eq. (4.43), no modo por lote, o ajuste de peso Aw (n) É feito somente após o conjunto 
de treinamento inteiro ter sido apresentado à rede. 

Do ponto de vista operacional “on-line”, o modo sequencial de treinamento é preferivel em 
relação ao modo por lote, porque requer menos armazenamento local para cada conexão sináptica. 
Além disso, dado que os parâmetros são apresentados à rede de uma forma aleatória, o uso de ajuste 
de pesos de padrão em padrão torna a busca no espaço de pesos de natureza estocástica. Por sua 
vez, isto toma menos provável que o algoritmo de retropropagação fique preso em um minimo 
local. 

Da mesma forma, a natureza estocástica do modo seqüencial torna mais dificil de estabelecer 
as condições teóricas para a convergência do algoritmo. Comparativamente, o uso do modo de 
treinamento por lote fornece uma estimativa precisa do vetor de gradiente; a convergéncia para um 
minimo local é assim garantida sob condições simples. A composição do modo por lote também o 
torna mais fácil de ser paralelizado que o modo sequencial. 

Quando os dados de treinamento são redundantes (i.e, o conjunto de dados contém várias 
cópias exatas dos mesmos padrões), constatamos que, diferentemente do modo por lote, o modo 
sequencial é capaz de tirar vantagem de sua redundância porque os exemplos são apresentados um 
de cada vez. Isto ocorre particularmente quando o conjunto de dados € grande e altamente redun- 
dante. 

Em resumo, apesar do fato de que o modo següencial da aprendizagem por retropropagação 
tem várias desvantagens, ele é muito popular (particularmente para resolver problemas de classifi- 
cação de padrões) por duas razões práticas importantes: 


+ O algoritmo é simples de implementar. 
» Ele fomece soluções efetivas a problemas grandes e dificeis. 


Critérios de Parada 


Em geral, não se pode demonstrar que o algoritmo de retropropagação convergiu e não existem 
critérios bem-definidos para encerrar a sua operação. Em vez disso, há alguns critérios razoáveis, 
cada um com o seu mérito prático particular, que podem ser usados para encerrar o ajuste dos pesos. 
Para formular um critério assim, é lógico se pensar em termos das propriedades únicas de um 
minimo local ou global da superfície de erro", Suponha que o vetor de peso w* represente um 
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minimo, seja ele local ou global. Uma condição necessária para que w* seja um minimo é que о 
vetor gradiente g(w) (i.e., a derivada parcial de primeira ordem) da superficie de erro em relação ao 
vetor de peso w seja zero em w = w*. Consequentemente, podemos formular um critério de conver- 
gência sensivel para a aprendizagem por retropropagação como segue (Kramer e Sangiovanni- 
Vincentelli, 1989): 


Considera-se que o algoritmo de retropropagação tenha convergido quando a norma euclidiana 
do vetor gradiente alcançar um limiar suficientemente pequeno. 


O problema deste critério de convergência é que, para se obter tentativas bem-sucedidas, os tempos 
de aprendizagem podem ser longos. Ele requer também o cálculo do vetor gradiente g(w). 

Uma outra propriedade única de um minimo que podemos utilizar é o fato de que a função de 
custo ou medida de erro É (ж) é estacionária no ponto w = w*. Consequentemente, podemos 
sugerir um critério diferente de convergência: 


Considera-se que o algoritmo de retropropagação tenha convergido quando a taxa absoluta de 
variação do erro médio quadrado por época for suficientemente pequena, 


A taxa de variação do erro médio quadrado é tipicamente considerada suficientemente pequena se 
ela se encontrar no intervalo de 0,1 a 1 por cento, por época. Algumas vezes um valor tão pequeno 
quanto 0,01 por cento, por época é utilizado. Infelizmente, este critério pode resultar em um encer- 
ramento prematuro do processo de aprendizagem. 

Há um outro critério de convergência útil e teoricamente fundamentado. Após cada iteração de 
aprendizagem, a rede é testada pelo seu desempenho de generalização. O processo de aprendiza- 
gem é encerrado quando o desempenho de generalização for adequado, ou quando ficar aparente 
que o desempenho de generalização atingiu o máximo; veja a Seção 4.14 para mais detalhes. 


4.4 RESUMO DO ALGORITMO DE RETROPROPAGACAO 


A Fig. 4.1 apresenta a planta arquitetural de um perceptron de múltiplas camadas. O grafo de fluxo 
de sinal correspondente para a aprendizagem por retropropagação, incorporando ambas as fases, 
para frente e para trás, das computações envolvidas no processo de aprendizagem, é apresentado na 
Fig. 4.7, para o caso de L — 2 e m, — m, = m, — 3. A parte superior do grafo de fluxo de sinal 
corresponde ao passo para frente. A parie inferior do grafo de fluxo de sinal se refere ao passo para 
trás, que é referido como o grafo de sensibilidade para o cálculo dos gradientes locais do algoritmo 
de retropropagação (Narendra e Parthasarathy, 1990). 

Anteriormente, mencionamos que a atualização sequencial dos pesos é o método preferido 
para a implementação em tempo de execução (on-line) do algoritmo de retropropagação. Para este 
modo de operação, o algoritmo circula através da amostra de treinamento [x(n), d(n)]* , como 
segue: 


1. Inicialização. Assumindo que nenhuma informação prévia esteja disponivel, retire os pesos 
sinápticos e limiares de uma distribuição uniforme cuja média é zero e cuja variância é escolhida 
para que o desvio padrão dos campos locais induzidos dos neurônios se encontre na transição entre 
as partes linear e saturada da função de ativação sigmóide. 
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FIGURA 4.7 Resumo gráfico do fluxo de sinal da aprendizagem por retropropagação. 
Paris superior do grafo: passo para frente. Parte inferior do grafo: passo para trás 


2. Apresentação dos Exemplos de Treinamento, Apresente uma época de exemplos de treina- 
mento à rede, Para cada exemplo do conjunto, ordenado de alguma forma, realize a sequência de 
computações para frente e para trás descritas nos pontos 3 e 4, respectivamente. 

3. Computação para Frente (Propagação). Suponha que um exemplo de treinamento da época 
seja representado por (х(л), d(n)), com o vetor de entrada x(n) aplicado à camada de entrada de nós 
sensoriais e o vetor resposta desejada din} apresentado à camada de saida de nós computacionais. 
Calcule os campos locais induzidos e os sinais funcionais da rede prosseguindo para frente através 
da rede, camada por camada. O campo local induzido 0и) para o neurônio / na camada fé 


vn) = Y w i (n) (4.44) 


onde y! Xn) ё o sinal (função) de saida do neurônio i na camada anterior / — 1, na iteração n, € 
ш (п) é o peso sináptico do neurônio j da camada /, que é alimentado pelo neurônio i da camada / 
- 1. Para i = 0, temos у'н) = +1 e won) = b (m) é o bias aplicado ao neurônio j na camada /. 
Assumindo-se o uso de uma função sigmóide, o sinal de saida do neurônio j na camada / é 


yp 2s, n) 
Se o neurônio / está na primeira camada oculta (Le., /= 1), faça 


Y (n) = хут) 
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onde хіп) é o j-&simo elemento do vetor de entrada xin). Se o neurônio j está па camada de saida 
(i.e, T= L, onde L é denominado a profundidade da rede), faça 


йар 
р” 


y, -on) 


Calcule o sinal de erro 
ein) = din) - оп) (4.45) 


onde din) ё o j-&simo elemento do vetor resposta desejada dir). 
4. Computação para Trás (Retropropagação). Calcule os бє (i.c, gradientes locais) da rede, 
definidos por 


[ e ner Qr" (n) para o neurônio j da camada de saida L 


87 (m) = | (4.46) 
| v v" (ny V 8; "(np "(m) рага o neurônio ў na camada oculta / 


onde o apóstrofe em q '(-) representa a diferenciação em relação ao argumento. Ajuste os pesos 
sinápticos da rede na camada / de acordo com a regra delta generalizada: 


wa +1)= wo (a) + ACT - р] + nó (пуу "(л) (4.47) 


onde т] ё o parâmetro da taxa de aprendizagem e a é a constante de momento. 
5. lieracdo. Itere as computagdes para frente e para trás dos pontos 3 e 4, apresentando novas 
épocas de exemplos de treinamento para a rede, até que seja satisfeito o critério de parada. 


Notas: a ordem da apresentação dos exemplos de treinamento deve ser aleatória, de época para 
época. Os parâmetros de momento e da taxa de aprendizagem tipicamente são ajustados (e normal- 
mente reduzidos) quando o número de iterações de treinamento aumenta, A justificativa para estes 
pontos será apresentada mais tarde. 


4.5 O PROBLEMA DO XOR 


No perceptron elementar (de camada única), nào há neurónios ocultos. Consequentemente, ele não 
pode classificar padrões de entrada que sejam não linearmente separáveis. Entretanto, padrões não 
linearmente separáveis ocorrem frequentemente. Esta situação surge, por exemplo, no problema de 
OU Exclusivo (NOR, Exclusive OR), que pode ser visto como um caso especial de um problema 
mais geral, que é o de classificar pontos no hipercube unitário. Cada ponto no hipercubo pertence 
ou à classe O ou à classe |, Entretanto, no caso especial do problema XOR, necessitamos considerar 
apenas os quatro vértices do quadrado unitário que correspondem aos padrões de entrada (0,0), (0,1), 
(1,1) e (1,0). 0 primeiro e o terceiro padrões de entrada pertencem à classe O, como mostrado por 


060=0 


11-0 
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onde $ representa o operador da função booleana OU Exclusivo, Os padrões de entrada (0,0) e 
(1,1) estão em vértices opostos do quadrado unitário; apesar disso, produzem a mesma saída 0. Por 
outro lado, os padrões de entrada (0,1) e (1,0) estão também em vértices opostos do quadrado, mas 
pertencem à classe 1, como mostrado por 


0812] 


LU] 


190 = 1 


Constatamos, primeiro, que o uso de um único neurônio com duas entradas resulta em uma 
linha reta como uma fronteira de decisão no espaço de entrada. Para todos os pontos de um lado 
desta linha, o neurônio coloca | na saida; para todos os pontos do outro lado da linha, coloca O na 
saida. A posição e a orientação da linha no espaço de entrada são determinadas pelos pesos sinápticos 
do neurônio conectados aos nós de entrada e pelo bias aplicado ao neurônio. Com os padrões de 
entrada (0,0) e (1,1) localizados em vértices opostos do quadrado unitário, e igualmente para os 
outros dois padrões de entrada (0,1) e (1,0), está claro que não podemos construir uma linha reta 
como uma fronteira de decisão de forma que (0,0) e (1.1) estejam em uma região de decisão e (0,1) 
e (1,0) estejam na outra região de decisão. Em outras palavras, um perceptron elementar não pode 
resolver o problema do ХОК, 

Podemos resolver o problema do XOR utilizando uma única camada oculta com dois neurônios, 
como na Fig. 4.8a (Touretzky e Pomerleau, 1989). O grafo de fluxo de sinal da rede está mostrado na Fig. 
4.8b. São feitas aqui as seguintes suposições: 


Neuyrônio | 





Меш 3 


Camada Camada Camada 
de entrada oculta de saida 


FIGURA 4.8 (a) Grafo arquitetural 
da rede para a resolução do proble- 
ma do ХОН. (b) Grafe de fluxo de 
sinal da rede 
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• Cada neurônio é representado por um modelo de McCulloch-Pitts, que usa uma função de 
limiar para a sua função de ativação. 


+ Os bits 0 е ] são representados pelos niveis 0 е +1, respectivamente. 
O neurônio de cima, rotulado como 1 na camada oculta, é caracterizado como: 
3,74, = +] 


h = 


Halt 5 


A inclinação da fronteira de decisão construida por este neurônio oculto é iguala -1 e posicionada 
como na Fig. 4.9a. O neurônio de baixo, rotulado como 2 na camada oculta, é caracterizado como: 


Ut, = +] 
l 





b, =--> 
2 
(0,1) NO (1.1) 
Entrada Galda 
E =() 
(0,00 (1,0) 
Entrada x, 
(a) 
ШАЙ 1.1) 
Entrada 
х; 
20,0) 1.0 
Entrada X 
(bi 
(0,1) (1,1) 
Entrada 
FIGURA 4.8 (a) Fronteira de decisão E 
construida palo neurônio oculto 1 da 
rade da Fig. 4.8. (b) Fronteira de degi- 
são consinuid | 
anstruida pelo neurónbo oculto 2 (0.0) (0) 


da rede. (c) Fronteiras de decisão 
construidas pala rede completa 
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A orientação e a posição da fronteira de decisão construida por este segundo neurônio oculto são como 
mostrados na Fig. 4.9. 
O neurônio de saída, rotulado como 3 na Fig. 4.8a, é caracterizado como: 


W =-2 
Шуу = +] 
_ 1 
TT 


A função do neurônio de saida é construir uma combinação linear das fronteiras de decisão forma- 
das pelos dois neurônios ocultos. O resultado desta computação está mostrado na Fig. 4.9c, O 
neurônio oculto inferior tem uma conexão excitatória (positiva) para o neurônio de saída, enquanto 
que o neurônio oculto superior tem uma conexão inibitória (negativa) mais forte para o neurônio de 
saida. Quando os dois neurônios ocultos estão desligados, que ocorre quando o padrão de entrada é 
(0,0), o neurônio de saída permanece desligado. Quando ambos os neurônios ocultos estão ligados, 
que ocorre quando o padrão de entrada é (1,1), o neurônio de saida é desligado novamente porque o 
efeito inibitório do peso negativo maior conectado ao neurônio oculto superior sobrepuja o efeito 
excitatório do peso positivo conectado ao neurônio oculto inferior. Quando o neurônio oculto supe- 
rior está desligado e o neurônio oculto inferior está ligado, que ocorre quando o padrão de entrada 
é (0,1) ou (1,0), o neurônio de saida é ligado devido ao efeito excitatório do peso positivo conectado 
ao neurónio oculto inferior. Desta forma, a rede da Fig. 4.8a resolve de fato o problema do XOR. 


4.6 HEURÍSTICAS PARA MELHORAR O DESEMPENHO 
DO ALGORITMO DE RETROPROPAGAÇÃO 


Frequentemente, é dito que o projeto de uma rede neural utilizando o algoritmo de retropropagação 
é mais uma arte do que uma ciência, significando que muitos dos numerosos fatores envolvidos no 
projeto são o resultado da experiência particular de cada um. Há alguma verdade nesta afirmação. 
Entretanto, existem métodos que melhoram significativamente o desempenho do algoritmo de 
retropropagação, como descrito aqui. 


1. Atualização seqüencial comparada à atualização por lote. Como mencionado anteriormente, 
o modo sequencial da aprendizagem por retropropagação (envolvendo atualização de padrão em 
padrão) é computacionalmente mais rápido que o modo por lote. Isto é verdadeiro especialmente 
quando o conjunto de dados de treinamento for grande e altamente redundante. (Dados altamente 
redundantes causam problemas computacionais para a estimativa da jacobiana requerida para a 
atualização por lote). 

2. Maximizacáo do conteúdo de informação. Como regra geral, todo exemplo de treinamento 
apresentado ao algoritmo de retropropagação deve ser escolhido de forma que o seu conteúdo de 
informação seja o maior possível para a tarefa considerada (LeCun, 1993). Dois modos de alcançar 
este objetivo são: 


+ O uso de um exemplo que resulte no maior erro de treinamento. 
* O uso de um exemplo que seja radicalmente diferente de todos os outros usados anteriormen- 
bc. 


Estas duas heuristicas são motivadas por um desejo de ampliar a busca no espaço de pesos. 
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Nas tarefas de classificação de padrões usando a aprendizagem por retropropagação sequencial, 
uma técnica simples bastante utilizada é tornar aleatória (1.e., embaralhar) a ordem em que os exem- 
plos são apresentados ao perceptron de múltiplas camadas de uma época para a seguinte. Idealmente, 
a aleatoriedade garante que os exemplos sucessivos apresentados à rede em uma época raramente 
pertençam à mesma classe. 

Para uma técnica mais refinada, podemos usar um esquema de ênfase, que envolve a apresen- 
tação à rede de um número maior de padrões dificeis do que fáceis (LeCun, 1993). Podemos iden- 
tificar se um padrão particular é fácil ou dificil examinando-se o erro que ele produz, comparado 
com as iterações anteriores do algoritmo. Entretanto, hà dois problemas em se usar um esquema de 
enfase, que devem ser examinados cuidadosamente: 


e A distribuição dos exemplos dentro de uma época apresentada à rede é distorcida. 

e A presença de um exemplo estranho ou mal-rotulado pode ter uma conseqüéncia catastrófica 
no desempenho do algoritmo; aprender este exemplos estranhos compromete a habilidade de 
generalização da rede sobre regiões mais prováveis do espaço de entrada, 


3. Função de ativação. Um perceptron de múltiplas camadas treinado com o algoritmo de 
retropropagação pode, em geral, aprender mais rápido (em termos do número de iterações de treina- 
mento necessárias) quando a função de atrvação sigmóide incorporada no modelo do neurônio da 
rede for antissimêtrica do que quando ela for não-simétrica; veja a Seção 4.11 para detalhes. Dize- 
mos que uma função de ativação € anti-simétrica (i.e, função impar de seu argumento) se 


qo) = po) 


como representado na Fig. 4. 10a. Esta condição não é satisfeita pela função logística padrão, repre- 
sentada na Fig, 4.10b. 

Um exemplo popular de uma função de ativação anti-simétrica é uma nào-linearidade sigmóide 
na forma de uma tangente hiperbólica, definida por 


(e) = a tanh(bv) 
onde a e b são constantes. Valores adequados para as constantes a е 5 são (LeCun, 1989, 1993) 


а= 1,7159 


bui 
3 


A função tangente hiperbólica assim definida tem as seguintes propriedades úteis: 
. pil)” 1 еф(—1)= -1 


• Na origem, a inclinação (i.e., o ganho efetivo) da função de ativação fica próxima da unidade, 
como mostrado por 


z1,7159x2/3 
= 1,1424 
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FIGURA 4.10 (a) Função de ativação antissimétrica. (6) Função de ativação na&o-simetrica 


+ A derivada segunda de (1) atinge seu valor máximo em v = 1. 


4. Valores-alvo. É importante que os valores-alvo (resposta desejada) sejam escolhidos dentro do 
intervalo da função de ativação sigmóide. Mais especificamente, a resposta desejada d para o neurônio 
J na camada de saida do perceptron de múltiplas camadas deve ser deslocada por uma quantidade € 
afastada do valor limite da função de ativação sigmóide, dependendo se o valor limite é positivo ou 
negativo. Caso contrário, o algoritmo de retropropagação tende a levar os parâmetros livre da rede 
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para o infinito e dessa forma reduzir a velocidade do processo de treinamento, levando os neurônios 
ocultos à saturação. Para sermos específicos, considere a função de ativação antissimétrica da Fig. 
4,10a, Para o valor limite +a, fazemos 


d-a € 


e para o valor limite — a, fazemos 
d=-a+e 


onde e é uma constante positiva apropriada, Para a escolha de q = 1,7159 referida anteriormente, 
podemos fazer є = 0,7159; neste caso, o valor-alvo (resposta desejada) d, pode ser convenientemen- 
te escolhido como +1, como indicado na Fig. 4.10a. | 

5. Normalizar as entradas. Cada variável de entrada deve ser pré-processada de modo que o seu 
valor médio, calculado sobre todo o conjunto de treinamento ou seja próximo de zero, ou seja 
pequeno comparado com o desvio padrão (LeCun, 1993). Para avaliar o significado prático desta 
regra, considere o caso extremo, onde as variáveis de entrada são positivas de modo consistente. 
Nesta situação, os pesos sinápticos de um neurônio na primeira camada oculta podem apenas cres- 
cer juntos ou decrescer juntos. Consequentemente, se o vetor peso daquele neurônio deve mudar de 
direção, ele só pode fazer 1550 ziguezagueando seu caminho através da superficie de erro, o que é 
tipicamente lento e deve ser evitado. 

Para acelerar o processo de aprendizagem por retropropagação, a normalização das entradas 

deve incluir também duas medidas (LeCun, 1993): 


* As variáveis de entrada contidas no conjunto de treinamento devem ser não-correlacionadas, 
isto pode ser feito utilizando-se análise de componentes principais, como detalhado no Capi- 
tulo 8. 

* As variáveis de entrada descorrelacionadas devem ser escaladas para que suas covariâncias 
sejam aproximadamente iguais, assegurando-se com isso que os diferentes pesos sinápticos 
da rede aprendam aproximadamente com a mesma velocidade. 


A Figura 4.11 ilustra os resultados de três passos de normalização: remoção da média, descorrelação 
е equalização da covariäncia, aplicados nesta ordem, 

6. Inicialização. Uma boa escolha para os valores iniciais dos pesos sinápticos e limiares da rede 
pode ser de tremenda ajuda para um projeto de rede ser bem-sucedido. A pergunta chave ё; o que é 
uma boa escolha? 

Quando são atribuidos valores iniciais grandes aos pesos sinäpticos, é muito provável que os 
neurônios da rede sejam levados à saturação. Se isto acontecer, os gradientes locais no algoritmo de 
retropropagação assumem valores pequenos, o que por sua vez ocasionará uma diminuição da velo- 
cidade do processo de aprendizagem. Entretanto, se forem atribuídos valores iniciais pequenos aos 
pesos sinápticos, o algoritmo de retropropagação pode operar em uma área muito plana em torno da 
origem da superficie de erro; isto é particularmente verdade no caso de funções de ativação 
antissimétricas, como a função tangente hiperbölica. Infelizmente, a origem é um ponto de sela, 
que corresponde а um ponto estacionário onde a curvatura da superficie de erro através da sela é 
negativa e a curvatura ao longo da sela é positiva. Por estas razões, o uso tanto de valores grandes 
como de valores pequenos para a inicialização dos pesos sinápticos deve ser evitado. A escolha 
adequada para a inicialização se encontra em algum lugar entre estes dois casos extremos. 


Percerrrons DE MúLTIPLAS CAMADAS 209 


Xs X3 





Conjunto original de 


pontos de dados 
Descorrelagüo 


Equalização da 
covariância 





FIGURA 4.11 Ilustração da operação de remoção da média, descorrelagäo e equalização 
da covariância para um espaço de entrada bidimensional 


Para sermos específicos, considere um perceptron de múltiplas camadas que usa a função 
tangente hiperbólica para suas funções de ativação. Considere o bias aplicado a cada neurônio da 
rede fixo em zero. Podemos então expressar o campo local induzido do neurónio j como 


NT Y Wy, 


del 
Assuma que as entradas aplicadas a cada neurónio da rede tenham média zero e variância unitária, 
como mostrado por 


u, *E[r] 70 para todo i 


с! = Е|(у, а ш) |= Ely?]=1 para todo i 


Assuma ainda que as entradas são não-correlacionadas, como mostrado рог 
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Е|у,у,|= | para k — i 


O paraksi 


e que os pesos sinápticos são retirados de um conjunto uniformemente distribuido de números com 
média zero 


H, = Ew, = para todos os pares(f, 7) 
e variância 
a, = Ако, = i, y | = Еа? | рага todos os pares LD 


Correspondentemente, podemos expressar a média e a variância do campo local induzido como 


н. == E ns |= 58] 


E y Y E[w do 2 vr] (4.48) 


onde m é o número de conexões sinápticas de um neurônio. 

Com base neste resultado, podemos agora descrever uma boa estratégia para inicializar 05 
pesos sinápticos de modo que o desvio padrão do campo local induzido de um neurônio caia na área 
de transição entre as partes linear € saturada da sua função de ativação sigmóide, Para o caso de uma 
função tangente hiperbólica com seus parámetros a e В como previamente especificado, por exem- 
plo, este objetivo é satisfeito fazendo с = 1 na Eq. (4.48); neste caso, obtemos (LeCun, 1993) 


G -n 12 (4.49) 


Assim, é desejável que a distribuição uniforme, da qual os pesos sinápticos são selecionados, tenha 
uma media zero e uma variáncia igual ao reciproco do número de conexões sinápticas de um neurónio. 
7. Aprendizagem por indicios. À aprendizagem a partir de um conjunto de exemplos de treina- 
mento lida com uma função de mapeamento de entrada-saida desconhecida f(-). Na verdade, o 
processo de aprendizagem explora a informação contida nos exemplos sobre a função A) para 
inferir uma implementação aproximada para cla. O processo de aprendizagem por exemplos pode 
ser generalizado para incluir aprendizagem por indicios, o que é obtido permitindo-se que a infor- 
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mação prévia que tenhamos sobre a função /-) seja incluida no processo de aprendizagem (Abu- 
Mostafa, 1995). Tal informação pode incluir propriedades invariantes, simetrias, ou qualquer outro 
conhecimento sobre a função fl-) que pode ser usado para acelerar a busca por sua realização apro- 
ximada e, mais importante que isto, melhorar a qualidade da estimativa final. O uso da Eg. (4.49) é 
um exemplo de como isto pode ser obtido. 

8. Taxas de aprendizagem. Todos os neurônios do perceptron de múltiplas camadas devem aprender 
com a mesma taxa. As últimas camadas normalmente têm gradientes locais maiores do que as 
camadas anteriores da rede. Assim, deve-se atribuir ao parámetro da taxa de aprendizagem ту valo- 
res menores nas últimas camadas do que nas camadas anteriores. Neurónios com muitas entradas 
devem ter um parâmetro da taxa de aprendizagem menor do que neurônios com menos entradas, 
para manter um tempo de aprendizagem similar a todos os neurônios da rede, Em LeCun (1993), é 
sugerido que, para um determinado neurônio, a taxa de aprendizagem deve ser inversamente pro- 
porcional à raiz quadrada das conexões sinápticas feitas com aquele neurônio. Discutimos as taxas 
de aprendizagem mais extensamente na Seção 4.17. 


4.7 REPRESENTAÇÃO DA SAÍDA E REGRA DE DECISÃO 


Em teoria, para um problema de classificação de M classes, no qual a união das M classes distintas 
forma o espaço de entrada inteiro, necessitamos de um total de M saidas para representar todas as 
decisões de classificação possíveis, como representado na Fig. 4.12. Nesta figura, o vetor х repre- 
senta o j-ésimo protótipo (1.e., amostra única) de um vetor aleatório x de dimensão m, a ser classifi- 
cado por um perceptron de múltiplas camadas. A k-ésima das M classes possíveis às quais o vetor x 
pode pertencer é representada por €,. Suponha que y, seja a k-ésima saída da rede produzida em 
resposta ao protótipo x, como mostrado por | 


vj= Ea)  k-1,2,.,M (4.50) 


Yi 

Perceptron de 
FIGURA 4.12 Diagrama em blocos y Em. [a 
de um classificador de padrões kd = 


onde a função F (-) define o mapeamento da entrada para a &-ésima saída, aprendido pela rede. Por 
conveniência de apresentação, suponha que 


y,- In, en ru] 
-[F(x.) Al) Fu(x,)] (4.51) 
-Fix) 
onde F(-) é uma função de valor vetorial. Uma questão básica que desejamos abordar nesta seção é: 


Apos um perceptron de multiplas camadas ser treinado, qual deve ser a regra de decisão ótima 
para classificar as M saídos da rede? 


Claramente, qualquer regra de decisáo razoável de saida deve ser haseada no conhecimento da 
função de valor vetorial: 


212 Broes Neuran 


F: В" 3 x — y ER” (4.52) 


Em geral, tudo o que é certo sobre a função de valor vetorial F(-) é que ela é uma função continua 
que minimiza o funcional de risco empírico: 


1 + 
Ss “Fix ур 
" IN 2l UN (4.53) 


onde d é o padrão de saida desejado (alvo) para o protótipo X. ||| é a norma euclidiana do vetor aí 
compreendido e N é o número total de exemplos apresentados à rede no treinamento. A essência do 
critério da Eg. (4.53) é a mesma que a da função de custo da Eq. (4.3). A função de valor vetorial 
Е(.) é fortemente dependente da escolha dos exemplos (xd) usados para treinar a rede, de forma 
que valores diferentes de (x „d ) levam de fato a diferentes funções de valor vetorial F(-). Note que a 
terminologia (xd ) usada aqui é a mesma daquela de (x(j),d(j)) usada anteriormente. 

Suponha agora que a rede é treinada com valores-alvo binários (que eventualmente 
correspondem aos limites superior e inferior das saídas da rede, quando a função logistica é usada), 
escritos como: 


1 quandooprotótico x ence à classe € 
= | i 4 A (4.54) 


Ü quandoo protótico х, não pertence à classe Y, 
Com base nesta notação, a classe €, é representada por um vetor alvo de dimensão M 
0 


1 |+ k-ésimo elemento 


É tentador se supor que um classificador por perceptron de múltiplas camadas treinado com o 
algoritmo de retropropagação, com um conjunto finito de exemplos independentemente e 
identicamente distribuidos (1.1.d.), pode levar a uma aproximação assintótica das probabilidades de 
classe a posteriori subjacentes. Esta propriedade pode ser justificada pelas seguintes razões (White, 
19893; Richard c Lippmann, 1991): 


* A lei dos grandes números é invocada para mostrar que, quando o tamanho do conjunto de 
treinamento N se aproxima do infinito, o vetor de peso w que minimiza o funcional de custo R 
da Eq. (4.53) se aproxima do vetor de peso ótimo w* que minimiza o valor esperado da quan- 
tidade aleatória + |ld — Fiw х)“ . onde d é o vetor resposta desejada e F(w,x) ё a aproximação 
realizada por um perceptron de múltiplas camadas com vetor de peso w e vetor x como entra- 
da (White, 19892). A função F(w,x), que apresenta dependência explicita do vetor de peso w, 
ёа mesma que a função F(x) usada anteriormente. 

* O vetor de peso ótimo w* tem a propriedade que o vetor correspondente das saidas reais da 
rede, F(w*, x). é uma aproximação por minimização de erro médio quadrado do valor espera- 


Hidden page 
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das relações dos pesos sinápticos conectados a eles (Lui, 1990). Tal análise, entretanto, não é apli- 
cável a uma fronteira de decisão formada de acordo com a regra de decisão de saida da Eq. (4.55). 
Uma abordagem mais apropriada é considerar os neurônios ocultos como detectores não-lineares 
de características que procuram mapear classes do espaço de entrada original Ro, onde as classes 
podem não ser linearmente separáveis, para o espaço de ativações da camada oculta, onde é mais 
provável que sejam linearmente separáveis. 


4.8 EXPERIMENTO COMPUTACIONAL 


Nesta seção, usamos um experimento computacional para ilustrar o comportamento da aprendiza- 
gem de um perceptron de múltiplas camadas usado como classificador de padrões. O objetivo do 
experimento é distinguir entre duas classes de padrões bidimensionais “superpostas”, com distri- 
buição gaussiana, rotuladas como 1 e 2. Suponha que %, e €, representem o conjunto de eventos 
para os quais um vetor aleatório x pertence aos padrões I e 2, respectivamente. Podemos então 
expressar as funções de densidade de probabilidade condicional para as duas classes como; 











Е | 1 | 
Classe % : AOS) ox za H, 


; | (4.56) 
onde 


H, = vetor média = [0,0] 


Classe €; G; = variância = 1 (4.57) 


| | 1, 2 
i "6 ii + ES ET | Бе > 
KSE) Inc} ev 507 хр, ) 











onde 


Á Figura 4.13a mostra gráficos tridimensionais das duas distribuições gaussianas definidas pelas 
Eqs. (4.56) e (4.57). O vetor de entrada é x = [x,, x,]", e a dimensionalidade do espaço de entrada é 
m, = 2, A Figura 4.14 mostra diagramas de espalhamento individuais para as classes €, e %,eo 
diagrama de espalhamento conjunto, representando a superposição dos gráficos de espalhamento 
de 500 pontos tomados de cada um dos dois processos. Este último diagrama mostra claramente 
que as duas distribuições se sobrepõem significativamente, indicando que existe inevitavelmente 
uma probabilidade significativa de classificação incorreta. 
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FIGURA 4.13 (a) Função de densidade de probabilidade /(xl'€.); (b) Função de densidade de probabilidade f(xl'6.) 


Fronteira de Decisão Bayesiana 


O critério bayesiano para classificação ótima é discutido no Capítulo 3. Assumindo que para um 
problema de duas classes (1) as classes Є e €, sejam eqüiprováveis, (2) os custos para classifica- 
ções corretas sejam zero e (3) os custos para classificações incorretas sejam iguais, constatamos que 
a fronteira de decisão ótima é encontrada aplicando-se o teste da razão de verossimillanga: 


ч, 
A(x) FE (4.58) 
onde A(x) é a razão de verossimilhança, definida por 
Ax) = ЖОК) (4.59) 
Ae, ) 
onde Ё é o limiar do teste, definido рог 
E=Êi=] (4.60) 
P 


Para o exemplo considerado, temos 
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10 

















a? 1 a 1, 2 
Mx) = exp -— {к-н 
(х) m = 20? x - gl ty u, | 


Conseqüentemente, a fronteira de decisão (bayesiana) ótima é definida por 





2 | + - 
Deal + sinl Ja 


ou de forma equivalente, 





FIGURA 4.14 (a) Gráfico de espalhamento da classe %.. (b) Gráfico de espalhamento da classe €. 


(c) Gráfico de espalhamento combinado de ambas as classes. 
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Lacu caf! tod 2 
Em -de-m = 41o S) ав) 


Usando manipulações diretas, podemos redefinir a fronteira de decisão ótima da Eq. (4.61) sim- 
plesmente como 





lx- x= (4.62) 
onde 
i i 
x, = SD (4.63) 
9-0, 
© 
:__ |l, -p ll с 
= — + Alog — 
i zx oi. gi xS ) (4.64) 


A Equação (4.62) representa um círculo com centro x e raio ғ. Suponha que £3, defina a região 
compreendida dentro deste circulo. A regra de classificação bayestana para o problema considerado 
pode ser formulada como segue: 


Classifique o vetor de observação x como pertencente à classe €, se a razão de verossimilhança 
A(x) for maior que о limiar È, e à classe É, caso contrário, 


Para os parâmetros particulares deste experimento, temos uma fronteira de decisão circular cujo 
centro está localizado em 
-213 
х = 
0 


к= 2,34 


e cujo raio é 


Considere que с represente o conjunto de resultados corretos de classificação e e o conjunto de 
resultados incorretos de classificação. A probabilidade de erro (classificação incorreta), P , de um 
classificador operando de acordo com a regra de decisão bayesiana é 


Р, = p Pee) + p,P(ef€,) (4.65) 


onde Pel€,) é a probabilidade condicional de erro, dado que o vetor de entrada do classificador 
tenha sido retirado da distribuição de classe € , e similarmente para P(ef'6,); p, e p, são as probabi- 
lidades a priori das classes €, e E respectivamente. Para o nosso problema, podemos estimar 
numericamente as integrais de probabilidade para obter 


Piel) = 0,1056 


P(e[€,) = 0,2642 
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Com p, = р, = 1/2, a probabilidade de classificação incorreta, consequentemente, é 
P = 0,1849 


De forma equivalente, a probabilidade de classificação correta € 


P=i-B 
= 0,8151 


Determinagäo Experimental do Perceptron Ötimo de Mültiplas Camadas 


A Tabela 4.1 lista os parâmetros variáveis de um perceptron de múltiplas camadas (MLP, multilayer 
perceptron) que envolve uma única camada de neurônios ocultos e que é treinado com o algoritmo 
de retropropagação operando no modo sequencial. Como o objetivo último de um classificador de 
padrões é alcançar uma taxa aceitável de classificação correta, este critério é usado para julgar 
quando os parâmetros variáveis do MLP (usado como um classificador de padrões) são ótimos. 


TABELA 4.1 Parámetros Variáveis do Perceptron de Multiplas Camadas 


Parâmetro Simbolo Intervalo Típico 


Número de neurônios ocultos m. (2, mo) 
Parámetro da taxa de aprendizagem TÌ (0, 1) 
Constante de momento ü (0,14 


Número Ótimo de Neurónios Ocultos. Refletindo as abordagens práticas para o problema da 
determinação do número ótimo de neurônios ocultos, m. o critério utilizado € o menor número de 
neurônios ocultos que produz um desempenho “próximo” ao do classificador bayesiano = nor- 
malmente dentro de 1 por cento. Assim, o estudo experimental começa com dots neurônios ocul- 
tos como ponto de partida para os resultados de simulação resumidos na Tabela 4.2. 





TABELA 4.2 Resultados da Simulação para Dois Neurónios Ocultos" 


Tamanho do Probabilidade de 
Numero Conjunto de Número de Erro Médio Classificação 
da Rodada Treinamento Epocas Quadrado Correta, P. 
І 500 320 0,2375 80,3695 
2 2000 RO (0,1341 80,3395 
3 8000 20 0,2244 40,47% 


“Parâmetro da taza de aprendizagem т = 0,1 e momento œ = ЇЇ, 


Como o propósito do primeiro conjunta de simulações é meramente verificar a suficiência ou não 
dos dois neurônios ocultos, o parâmetro da taxa de aprendizagem т e a constante de momento c são 
fixados arbitrariamente em um valor nominal, Para cada rodada de simulação, um conjunto de 
treinamento de exemplos, gerados aleatoriamente das distribuições gaussianas para as classes €, e 
€, com igual probabilidade, é repetidamente circulado através da rede, com cada ciclo de treina- 
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mento representando uma época. O número de épocas é escolhido de modo que o número total de 
exemplos de treinamento utilizados em cada rodada constante, Fazendo assim, qualquer efeito po- 
tencial surgido pelas variações dos tamanhos do conjunto de treinamento são compensados pela 
média. 

Na Tabela 4.2 e nas tabelas subsegüentes, o erro médio quadrado é calculado precisamente 
como o funcional de erro definido na Eq. (4.53). Enfatizamos que o erro médio quadrado é incluido 
nestas tabelas somente para efeito de registro, uma vez que um erro médio quadrado pequeno não 
implica necessariamente boa generalização (ie, bom desempenho com dados näo-vistos anterior- 
mente). 

Após a convergência de uma rede treinada com um número total de N padrões, a probabilidade de 
classificação correta pode ser calculada, teoricamente, como segue: 


Pie, № = p Pie, NE) + p,Ple, МЄ) (4.66) 
onde p, = p, = 1/2,e 
Pe. ME )= | fe, )ах (4.67) 
12,4 A 
Р(с,МЄ,)=1- | f(x[€.)dx (4.68) 


пл 


е (№) é a região no espaço de decisão sobre a qual o perceptron de múltiplas camadas (treinado 
com N padrões) classifica o vetor x (representando uma realização do vetor aleatório X) como 
pertencente à classe ‘€ . Esta região é usualmente encontrada experimentalmente pela estimativa da 
função de mapeamento aprendida pela rede e então aplicando-se a regra de decisão da saída da Ea. 
(4.55). Infelizmente, a estimativa numérica de Pie NJEN e Pic, NE.) é problemática porque nào 
podem ser encontradas facilmente expressões fechadas descrevendo a fronteira £2, (№). 

Conseqüentemente, recorremos ao uso de uma abordagem experimental que envolve testar o 
perceptron de múltiplas camadas em relação a outro conjunto independente de exemplos que são 
novamente retirados aleatoriamente das distribuições para as classes “б e €, com igual probabilida- 
de. Suponha que À seja uma variável aleatória que conte o número de padrões retirados dos N 
padrões de teste que são classificados corretamente. Então, a razão 


E 


Ps = N 


é uma variável aleatória que fornece a estimativa sem bias por máxima verossimilhança do desem- 
penho de classificação real p da rede. Assumindo que p seja constante sobre os N pares de entrada- 
saída, podemos aplicar o limite de Chernaff (Devroye, 1991) para o estimador p, de p, obtendo 


Р(р„- p| 7 €) 2 exp(-2€'N) = 8 


A aplicação do limite de Chernoff produz № = 26.500 para e = 0,01 e = 0,01 (i.e., 99 por cento de 
certeza que a estimativa p tenha a tolerância dada). Tomamos, então, um conjunto de teste de tama- 
nho N = 32.000. A última coluna da Tabela 4.2 apresenta a probabilidade de classificação correta 
estimada para este tamanho de conjunto de teste, com cada resultado sendo a média de 10 tentativas 
independentes do experimento. 

O desempenho de classificação apresentado na Tabela 4.2 para um perceptron de múltiplas 
camadas usando dois neurônios ocultos já é razoavelmente próximo ao desempenho bayesiano P. = 
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81,51 por cento. Com isso, podemos concluir que para o problema de classificação de padrões 
descrito aqui o uso de dois neurônios ocultos é adequado. Para enfatizar esta conclusão, na Tabela 
4.3 apresentamos os resultados de simulações repetidas para o caso de quatro neurônios ocultos, 
com todos os outros parâmetros mantidos constantes. Apesar de o erro médio quadrado na Tabela 
4.3 para quatro neurônios ocultos ser um pouco mais baixo que aquele da Tabela 4.2 para dois 
neurônios ocultos, a taxa média de classificações corretas não mostra melhoria; de fato, ela é um 
pouco pior. Para o resto do experimento computacional descrito aqui, o número de neurônios ocul- 
tos С mantido em dois. 


TABELA 4.3 Resultados da Simulação para o Perceptron de Multiplas Camadas 
Usando Quatro Neurônios Ocultos" 





Tamanho do Probabilidade de 
Número Conjunto de Nümero de Erro Médio Classificação 
da Rodada Treinamento Epocas Quadrado Cometa, P. 
I 500 320 0,2199 80,80% 
2 SML) RÜ 0,2 108 20,51% 
3 8001 20 0,2142 80,19% 


‘Parämetro da taxa de aprendizagem тү = 0,1 e constante de momento a = 0, 


Aprendizagem Ótima e Constantes de Momento. Para os valores “ótimos” do parámetro da taxa 
de aprendizagem 1] e constante de momento c, podemos usar uma das três definições: 


1. Os 1 e ct que em média produzem convergência para um minimo local na superficie de erro da 
rede com o menor número de épocas. 

2. Osn ea que, para o pior caso ou em média, produzem convergência para o mínimo global na 
superficie de erro com o menor número de épocas. 

3. Os ne & que em média produzem convergência para a configuração de rede que tem a melhor 
generalização sobre todo o espaço de entrada, com o menor número de épocas. 


Os termos “média” e “pior caso” usados aqui se referem à distribuição dos pares de entrada-saida de 
treinamento. A definição 3 é ideal na prática; entretanto, é dificil aplicá-la, pois minimizar o erro 
médio quadrado é normalmente o critério matemático para a otimização durante о treinamento da 
rede, e, como afirmado anteriormente, um baixo erro médio quadrado sobre um conjunto de treina- 
mento não implica necessariamente boa generalização. Do ponto de vista de pesquisa, a definição 2 
é mais interessante que a definição 1. Em Luo (1991), por exemplo, são apresentados resultados 
rigorosos para a adaptação ótima do parâmetro da taxa de aprendizagem ту, de modo que o menor 
número de épocas seja necessário para o perceptron de múltiplas camadas aproximar a matriz de 
pesos sinápticos globalmente ótima com uma precisão desejada, embora para o caso especial de 
neurônios lineares. Em geral, entretanto, procedimentos heuristicos e experimentais dominam a 
seleção ótima de тү e ct quando se usa a definição 1. Para o experimento descrito aqui, consideramos, 
portanto, à otimização no sentido da definição 1. 

Utilizando um perceptron de múltiplas camadas com dois neurônios ocultos, são simuladas 
combinações do parámetro da taxa de aprendizagem ne (0,01, 0,1, 0,5, 0,9) e da constante de 
momento x € 10,0, 0,1, 0,5, 0,9} para observar seu efeito sobre a convergência da rede. Cada 
combinação é treinada com o mesmo conjunto de pesos aleatórios iniciais e o mesmo conjunto de 
500 exemplos, de modo que os resultados do experimento possam ser comparados diretamente. O 
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processo de aprendizagem foi continuado para 700 épocas, após o que ele foi encerrado; esta exten- 
são de treinamento foi considerada adequada para o algoritmo de retropropagação alcançar um 
minimo local na superficie de erro. As curvas de aprendizagem médias de ensemble assim calcula- 
das estão traçadas nas Figs. 4.15a — 4.154, que estão agrupadas por ту. 

As curvas de aprendizagem experimentais mostradas aqui sugerem as seguintes tendências: 
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Número de ¿pocas 


(a) 


Erro 
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Número de épocas 
(bi 
FIGURA 4.15 Curvas de aprendizagem médias de ensemble para momentos a variáveis 


e os seguintes valores de parámetros da taxa de aprendizagem: (a) тү = 0,01, (b) п = 0,1, 
(с) п = 0,5 е (d) п = 0,9 


222 Renes NEURAIS 


DA 
0,38 
0.36 
0.34 
03 


médio (LS: БШ 
quadrado а E 4 t 

0,28 Xd MA a СУ 
0,26 o Ru DER I C A А 


0,24 


- = 
Ennn A аа E p Sm 


0,22 





12 . 
ü ^l WX 150 


Número de ¿pocas 
{с} 
04 
0,38 
036 po 
0,34 НЫ: 
EL, 4| 
1 t 
Erro OM qo 
médio [1,3 
quadrado 
0,38 
0,36 


(134 


qa E ай йз pl aa a 
dB 


RD LLL er En ATEN 





ü 100 200 300 400 500 600 ш 
Múmero de épocas 


id} 


FIGURA 4.15 


a Enquanto que, em geral, um pequeno parâmetro da taxa de aprendizagem ту resulta em uma 
convergência mais lenta, ele pode localizar minimos locais “mais profundos” na superficie de 
erro do que um n grande, 

* Рага т — 0, о uso de б — 1 produz um aumento da velocidade de convergência. Por outro 
lado, param — |, o uso de at — 0 é necessário para assegurar a estabilidade da aprendizagem. 

e О uso das constantes тү = (0,5, 0,91 eo = 0,9 causa oscilações no erro médio quadrado durante 
a aprendizagem e um valor mais alto para o erro médio quadrado na convergéncia, sendo 
ambos efeitos indesejáveis. 
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Na Fig. 4.16, mostramos gráficos das “melhores” curvas de aprendizagem para cada grupo das 
curvas de aprendizagem traçado na Fig. 4.15, para determinar a melhor curva de aprendizagem 
"global"; “melhor” sendo definido no sentido do ponto 1 descrito anteriormente. Da Fig. 4.16, é 
aparente que o parâmetro da taxa de aprendizagem ótimo п. é cerca de 0,1 е a constante de 


i r 1 a ai LE n en пт = 
momento ótima at, ё cerca de 0,5. Assim, a Tabela 4.4 resume os valores “ótimos” dos parâmetros 
da rede usados no restante do experimento. O fato de que o erro médio quadrado final de cada curva 
па Fig. 4.16 não varia significativamente no intervalo деті e a sugere uma superficie de erro “bem 


comportada” (i.e, relativamente suave) para o problema, 
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FIGURA 4,16 Melhores curvas de aprendizagem selecionadas das quatro partes da Fig. 4.15 





TABELA 4.4 Configuração do Perceptron de Múltiplas 
Camadas Otimizado 


Parámetro Simbolo Valor 
Número ótimo de neurônios ocultos тм 2 
Parâmetro ótimo da taxa de aprendizagem TL. 0,1 
Constante de momento ótima a. 05 





Avaliação do Projeto Ótimo de Rede. Dado o perceptron de múltiplas camadas “otimizado” com 
os parâmetros resumidos na Tabela 4.4, a rede final é avaliada para determinar a sua fronteira de 
decisão, a curva de aprendizagem média de ensemble e a probabilidade de classificação correta, 
Com conjuntos de treinamento com tamanho finito, a função aprendida pela rede com os parâmetros 
ótimos é “estocástica” por natureza. Consequentemente, estas medidas de desempenho são médias 
de ensemble sobre 20 redes treinadas independentemente. Cada conjunto de treinamento consiste 
de 1000 exemplos, retirados das distribuições para as classes €, е, com igual probabilidade e que 
são apresentados à rede em ordem aleatória. Como anteriormente, o treinamento se estendeu por 
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700 épocas. Para a determinação experimental das probabilidades de classificação correta, o mes- 
mo conjunto de teste com 32.000 exemplos usado anteriormente é utilizado novamente. 

A Fig. 4.17a mostra três das “melhores” fronteiras de decisão para três redes do ensemble de 
20. A Figura 4.17b mostra três das “piores” fronteiras de decisão para três outras redes do mesmo 
ensemble. A fronteira de decisão bayesiana (circular) sombreada está incluida em ambas as figuras 





4 за 
EM 
3 bo 
2 MX 
м 
a! ч, 
ES 
E Пр \ 
i 
Uj 
_1 4 
-2 Fronteira . Ж 
de decisão E 
E ашпа | » P 
-4 i 
-ü -4 -1 0 2 4 ё 


х 


FIGURA 4,174 Gráfico das trés “melhores” fronteiras de decisão para as seguintes pracisdes 
de classificação: 80,39, 80,40 e 80,43% 
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FIGURA 4.178 Gráfico das três “piores” fronteiras de decisão para as seguintes 
precisões de classificação: 77,24, 73,01 e 71,59% 
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como referência. Destas figuras observamos que as fronteiras de decisão construidas pelo algoritmo 
de retropropagação são convexas em relação à região onde elas classificam o vetor de observação x 
como pertencente à classe € ou à classe €... 

As estatisticas de ensemble das medidas de desempenho, probabilidade de classificação correta 
e erro médio quadrado final, calculadas sobre a amostra de treinamento, estão listadas na Tabela 
4.5. A probabilidade de classificação correta para o classificador bayesiano ótimo é 81,51%, 


TABELA 4.5 Estatísticas de Ensemble de Medidas de Desempenho (Tamanho da Amostra = 20) 


Medida de Desempenho Desvio Padrão 
Probabilidade de classificação correta 79,70% 0,44% 
Erro médio quadrado final 0,2277 0,0118 





4.9 DETECÇÃO DE CARACTERÍSTICAS 


Os neurônios ocultos desempenham um papel crucial na operação de um perceptron de múltiplas 
camadas com aprendizagem por retropropagação porque agem como detectores de caracteristicas. 
Conforme o processo de aprendizagem avança, os neurônios ocultos começam gradualmente a 
“descobrir” as caracteristicas salientes que caracterizam os dados de treinamento. Eles fazem isso 
realizando uma transformação não-linear dos dados de entrada para um novo espaço chamado de 
espaço oculto, ou espaço de caracteristicas; estas duas terminologias são usadas alternadamente 
em todo o livro. Neste novo espaço, as classes de interesse em uma tarefa de classificação de pa- 
drões, por exemplo, podem ser mais facilmente separadas entre si do que no espaço original de 
entrada. Esta afirmação é bem ilustrada pelo problema do XOR considerado na Seção 4.5. 
Colocando a questão em um contexto matemático, considere um perceptron de múltiplas ca- 
madas com uma única camada não-linear com m, neurônios ocultos, e uma camada linear de m, = M 
neurônios de saída. A escolha de neurônios lineares па camada de saida é motivada pelo desejo de 
concentrar а atenção sobre o papel dos neurônios ocultos na operação do perceptron de múltiplas 
camadas. Suponha que os pesos sinäpticos da rede sejam ajustados para minimizar o erro médio 
quadrado entre a saida-alvo (resposta desejada) e a saida real da rede, produzida em resposta a um 
vetor (padrão) de entrada de dimensão т, com a média de ensemble calculada sobre um total de N 
padrões. Suponha que z (n) represente a saida do neurônio oculto j devido à apresentação do padrão 
de entrada n. zin) ё uma função não-linear do padrão (vetor) de entrada aplicada à camada de 
entrada da rede em virtude da função de ativação sigmóide incorporada em cada neurônio oculto, 
A salda do neurônio К na camada de saida é 


c kz1,2,...M 
n= Dema en) nzl2..N (4.69) 
onde 10, representa o bias aplicado ao neurônio &. A função de custo a ser minimizada é 
hM oM 
$47 Emmy (4.70) 


Note que assumimos aqui o uso do modo de operação por lote. Usando as Egs. (4.69) e (4.70), é 
fácil reformular a função de custo € |. na forma matricial compacta: 
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E ua = i 





(4.71) 


onde W é a matriz M-por-m, de pesos sinápticos relativos à camada de saida da rede. A matriz Zé 
a malriz m,-por-M das saídas dos neurônios ocultos (subtraidos os seus valores médios), que são 
produzidas pelos N padrões individuais de entrada aplicados à camada de entrada da rede; isto é, 


Z= (zm) E.) j5Lh£.-.m: n=1,2,..., N! 
onde u, é o valor médio de z (n). Consegüentemente, a matriz D é a matriz M-por-N dos padrões- 
alvo (respostas desejadas) apresentados à camada de entrada da rede; isto é, 


= diin)- uj. k212..M: n212,.,N] 


onde Hu é o valor médio de а (л). À minimização de * , definida pela Eq. (4.70) é reconhecida 
como um problema linear de minimos quadrados, cuja solução é dada por 


=DZ' (4.72) 


onde Z'éa pseudo-inversa da matriz Z.O valor mínimo de € ы é dado por (veja o Problema 4.7) 


Kc а ad шш E 

бат =, t| DD'DZ' (22^) Zb'] (4.73) 
onde tr[-] representa o operador traço. Como os padrões-alvo representados pela matriz D são todos 
fixos, minimizar a função de custo € |. em relação aos pesos sinápticos do perceptron de múltiplas 
camadas é equivalente a maximizar a função discriminante (Webb e Lowe, 1990) 


g = w[C,c;] (4.74) 


onde as matrizes C, e C, são definidas como: 


* Amatriz C m -por-m, ёа matriz de covariância total das saidas dos neurônios ocultos devido 
à apresentação dos N padrões de entrada: 


С =27' (4.75) 


A matriz C" é a pseudo-inversa da matriz С. 
* A matriz C, m, -por-m, é definida como: 


C, -ZD' DZ (4.76) 


Note que a função discriminante © definida na Eq. (4.74) é determinada totalmente pelos neurônios 
ocultos do perceptron de múltiplas camadas. Também não há restrição no número de camadas ocul- 
tas que constituem a transformação não-linear responsável por gerar a função discriminante %. Em 


ES 


um perceptron de múltiplas camadas com mais de uma camada oculta, a matriz Z se refere ao 
conjunto inteiro de padrões no espaço definido pela camada final de neurônios ocultos. 
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Para uma interpretação da matriz C, considere a escolha especifica de um esquema de 
codificação um-de-M (Webb e Lowe, 1990). Isto é, o valor-alvo (resposta desejada) em um padrão 
particular é a unidade se o padrão escolhido pertence àquela classe, e zero caso contrário, como 
mostrado em (veja página 210) 


Ü 
d(n)=| 1 | k-ésimo elemento, dinje €, 
0 


Assim, se houver M classes, €,, k = 1, 2...., M com N, padrões na classe €, e 
br 
Ум = № 
kzi 


podemos então expandir a matriz C, para este esquema particular de codificação na forma 


M 
C, = Y Ni (u.s — nU, - Y (4.77) 
Ext 
onde o vetor H, „ m,-por-1, é o valor médio do vetor das saídas dos neurônios ocultos calculado 
sobre todos os №, padrões na classe €, e o vetor a, é o valor médio do vetor das saídas dos neurônios 
ocultos sobre todas as N apresentações de entrada. De acordo com a Eq. (4.77), podemos interpretar 
C, como a matriz de covariância ponderada entre classes nas saidas da camada oculta. 

Assim, para um esquema de codificação 1-de-M, o perceptron de múltiplas camadas maximiza 
uma função discriminante que é o traço do produto de duas matrizes: a matriz de covariância pon- 
derada entre classes e a pseudo-inversa da matriz de covariância total. Este resultado é interessante 
porque ilustra como um perceptron de múltiplas camadas com aprendizagem por retropropagacäo 
incorpora prioritariamente as proporções das amostras dentro das classes individuais. 


A Relação com o Discriminante Linear de Fisher 


A função discriminante D definida na Eq. (4.74) é única para os perceptrons de múltiplas camadas. 
Ela tem uma grande semelhança com o discriminante linear de Fisher, que descreve uma transfor- 
mação lincar de um problema multidimensional em um problema unidimensional, Considere uma 
variável y formada como uma combinação linear dos elementos de um vetor de entrada x; isto é, ela 
é definida como o produto interno de x e um vetor de parâmetros ajustáveis, w (que inclui um bias 
como o seu primeiro elemento), como mostrado por 


y-wx 
O vetor x ё retirado de uma de duas populações, €, e €,, que diferem entre si pelos seus vetores 


médios p, e |, respectivamente. O critério de Fisher para discriminar entre estas duas classes é 
definido por 
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F 
HeY C, w 





Г 
wCw 


onde C i é a matriz de covariància entre classes (“interclasses”) definida por 


C, 7 (и. — ри, — 1 Y 


e C ёа matriz de covariáncia no interior das classes ("intraclasse") total definida por 


C, = 'V (x, - Xx, - H Y (x, - Mx, р)" 


ag, sg. 


A matriz de covariância intraclasse C, é proporcional à matriz de covariáncia do conjunto de treina- 
mento. Ela é simétrica e definida não negativamente e normalmente não-singular se o tamanho do 
conjunto de treinamento for grande. A matriz de covariância interclasses C, é também simétrica e 
definida não negativamente, mas singular. Uma propriedade particularmente interessante é que o 
produto matricial C,w está sempre na direção do vetor diferença de médias 4, — j. Esta proprieda- 
de segue diretamente da definição de C,. 

A expressão que define Mw) é conhecida como o quociente Rayleigh generalizado. O vetor w 
que maximiza ./(w) deve satisfazer a condição 


C,w = ACw (4.76) 


A Equação (4.76) é um problema de autovalor generalizado. Reconhecendo que no nosso caso o 
produto matricial C,w está sempre na direção do vetor diferença Ц, — p, constatamos que а solução 
para a Eq. (4.76) é simplesmente 


w= Си, - 1) (4.77) 


que ё referido como o discriminante linear de Fisher (Duda e Hart, 1973). 

Retomando à questão da detecção de características, lembre-se de que a função discriminante 
ор da Eq. (4.74) relaciona à matriz de covariáncia intraclasses e a matriz de covariância total dos 
padrões transformados para o espaço oculto da rede. A função discriminante 3 desempenha um 
papel similar aquele do discriminante linear de Fisher. Esta € exatamente a razão por que estas redes 
neurais são capazes de realizar tão bem a tarefa de classificação de padrões. 


4.10 RETROPROPAGACÄO E DIFERENCIAÇÃO 


А retropropagação (back-propagation) é uma técnica especifica para implementar a descida do 
gradiente no espaço de pesos para uma rede de múltiplas camadas alimentada adiante. A idéia 
básica é calcular eficientemente as derivadas parciais de uma função aproximativa F(w,x) realizada 
pela rede em relação a todos os elementos do vetor ajustável de peso w para um dado valor de vetor 
de entrada x. Aqui se encontra o poder computacional do algoritmo de retropropagacio.* 

Para sermos específicos, considere um perceptron de múltiplas camadas com uma camada de 
entrada de m, nós, duas camadas ocultas e um único neurônio de saída, como representado na Fig. 
4.18. Os elementos do vetor de peso w são ordenados por camada (começando da primeira camada 
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oculta), a seguir por neurônios em uma camada, e então pelo número de uma sinapse dentro do 
neurônio. Suponha que ы! 


Г 
{= 0, 1, 2..... Рага /= 1, correspondendo à primeira camada oculta, o indice i se refere a um nó de 
fonte em vez de um neurônio. Para / = 3, correspondendo à camada de saida па Fig. 4.18, temos j = 
1. Desejamos estimar as derivadas da função F(w,x) em relação a todos os clementos do vetor de 
peso w, para um vetor de entrada específico, х = EE Note que, para / = 2 (i.e, uma 
única camada oculta), a função F(w,x) tem uma forma similar áquela do lado direito da Eq. (4.69). 
Incluimos o vetor de peso w como um argumento da função F para concentrar a atenção sobre ele. 

О perceptron de múltiplas camadas da Fig. 4.18 é parametrizado por uma arquitetura A (re- 
presentando um parâmetro discreto) e um vetor de peso w (constituido de elementos continuos). 
Suponha que ef” represente a parte da arquitetura que se estende da camada de entrada (/ = 0) até o 
nó / na camada / = 1, 2, 3. Conseqüentemente, podemos escrever 


represente o peso sináptico do neurônio d para o neurônio / na camada 


F(w,x) = pal") (4.80) 





Camada Primeira Segunda Camada FIGURA 4.18 Perceptron de múltiplas 
de entrada camada camada de saida camadas com duas camadas ocultas e 
oculta oculta urn neurónio de saida 


onde q é a função de ativação. Entretanto, 24” deve ser interpretado meramente como um simbo- 


lo arquitetura] em vez de uma variável, Assim, adaptando às Eqs. (4.1), (4.2), (4.11) e (4.23) para o 
uso nesta situação, obtemos os seguintes resultados 





àF(w,x) |, | 

See eff) (4.81) 

а do ada | 

mt LENA” ust? (4.82) 
by 

dFiw,x) 





Эш? =p a Шр wi pads ушу | (4.83) 


230 Renes Neurais 


onde y 'éa derivada parcial da nào-linearidade q em relação à sua entrada, ех, é o i-ésimo elemento 
do vetor de entrada x. De modo similar, podemos derivar as cquações para as derivadas parciais de 
uma rede genérica com mais neurônios ocultos e mais neurônios na camada de saída. 

As Equações de (4.81) a (4.83) fornecem a base para calcular a sensibilidade da função de 
rede F(w,x) em relação a variações nos elementos do vetor de peso w. Suponha que w represente um 
elemento do vetor de peso w. A sensibilidade de F(w,x) em relação a w é definida formalmente por 





s - oP P (cw 

de w 
É por esta razão que nos referimos à parte inferior do grafo de fluxo de sinal da Fig. 4.7 como um 
"grafo de sensibilidade”. 


A Matriz Jacobiana 


Suponha que W represente o número total de parámetros livre (Le., pesos sinápticos e bias) de um 
perceptron de mültiplas camadas, que estào ordenados da maneira descrita para formar o vetor de 
peso w. Suponha que N represente o número total de exemplos usados para treinar a rede. Utilizan- 
do a retropropagação, podemos calcular um conjunto de W derivadas parciais da função aproxima- 
tiva F[w, x(n)] em relação aos elementos do vetor de peso w para um exemplo especifico xir) do 
conjunto de treinamento. Repetindo estes cálculos para m = 1, 2,.., N, terminamos com uma matriz 
N-por-H de derivadas parciais. Esta matriz é denominada а jacobiana J do perceptron de múltiplas 
camadas calculada em x(n). Cada linha da jacobiana corresponde a um exemplo particular do con- 
junto de treinamento. 

Hà evidência experimental para sugerir que muitos problemas de treinamento de redes neurais 
são intrinsecamente mal-condicionados, levando a uma jacobiana J que é quase deficiente em posto 
(Saarinen et al., 1991). O posto de uma matriz é igual ao número de colunas ou linhas linearmente 
independentes da matriz, aquele que for o menor. Diz-se que a jacobiana é deficiente em posto se O 
seu posto for menor que minw, W). Qualquer deficiência em posto na jacobiana leva o algoritmo de 
retropropagação a obter apenas informação parcial das direções de busca possíveis, e causa também 
longos tempos de treinamento. 


4.11 A MATRIZ HESSIANA 


A matriz hessiana da função de custo € AUS, representada por H, é definida como a derivada 
segunda de € ,,J4MW) em relação ao vetor de peso w, como mostrado por 


1 
H _ PE QOO (4.84) 


dw” 


A matriz hessiana desempenha um papel importante no estudo das redes neurais; especificamente, 
podemos mencionar o seguinte:® 


1. Os autovalores da matriz hessiana têm uma influência profunda na dinâmica da aprendizagem 
por retropropagação. 

2. А inversa da matriz hessiana fornece uma base para podar (i.e., excluir) pesos sinápticos insig- 
nificantes de um perceptron de múltiplas camadas, como discutido na Seção 4.15. 
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3. A matriz hessiana é básica рага а formulação de métodos de otimização de segunda ordem 
como uma alternativa para a aprendizagem por retropropagação, como discutido na Seção 4.18. 


Um procedimento iterativo para o cálculo” da matriz hessiana é apresentado na Seção 4.15. Nesta 
seção, restringimos nossa atenção ao ponto 1. 

No Capítulo 3, indicamos que a auto-estrutura da matriz hessiana tem uma influência profun- 
da nas propriedades da convergência do algoritmo LMS. Isto também acontece com o algoritmo de 
retropropagação, mas em uma forma muito mais complicada, Tipicamente, a matriz hessiana da 
superficie de erro relativa a um perceptron de múltiplas camadas treinado com o algoritmo de 


retropropagação tem a seguinte composição de autovalores (LeCun, et al., 1991; LeCun, 1993): 


е Um pequeno número de autovalores pequenos. 
* Um grande número de autovalores médios. 
«+ Um pequeno número de autovalores grandes. 


Os fatores que afetam esta composição podem ser agrupados como segue: 


+ Sinais de entrada com média diferente de zero ou sinais neuronais de saida induzidos com 
média diferente de zero. 

e Correlagöes entre os elementos do vetor sinal de entrada е correlações entre sinais neuronais 
de saida induzidos. 

e Grandes variações nas derivadas segundas da função de custo em relação aos pesos sinápticos 
dos neurónios da rede, quando prosseguimos de uma camada para a próxima. As derivadas 
segundas såo freqüentemente menores nas camadas mais baixas, com os pesos sinápticos na 
primeira camada oculta aprendendo lentamente e aqueles na última camada aprendendo rapi- 
damente. 


Do Capítulo 3 recordamos que o tempo de aprendizagem do algoritmo LMS é sensivel a variações 
no número condicionante À /À onde À ёо maior autovalor da hessiana e À, é o seu menor 
autovalor diferente de zero. Resultados experimentais mostram que um resultado similar vale para 
o algoritmo de retropropagação, que é uma generalização do algoritmo LMS. Para entradas com 
média diferente de zero, a razão À (JA. é maior que o seu valor correspondente para entradas com 
média zero: quanto maior for a média das entradas, maior será a razão À A (veja o Problema 
3,10). Esta observação tem uma séria implicação para a dinâmica da aprendizagem por 
retropropagação. 

Para minimizar o tempo de aprendizagem, deve-se evitar o uso de entradas com média dife- 
rente de zero. Agora, considerando-se o vetor de sinal x aplicado a um neurônio na primeira camada 
oculta de um perceptron de múltiplas camadas (i.e., o vetor sinal aplicado à camada de entrada), é 
fácil remover a média de cada elemento de x antes de aplicá-lo à rede. Mas o que dizer dos sinais 
aplicados aos neurônios das camadas ocultas restantes e da camada de saida? A resposta a esta 
questão se encontra no tipo de função de ativação usada na rede. Se a função de ativação for não- 
simétrica, como no caso da função logistica, a saida de cada neurônio está restrita ao intervalo [0,1]. 
Uma escolha assim introduz uma fonte de bias sistemárico para aqueles neurônios localizados além 
da primeira camada oculta da rede. Para superar este problema, precisamos usar uma função de 
ativação anti-simétrica tal como a função tangente hiperbólica. Com esta escolha, permite-se que a 
saida de cada neurônio assuma valores tanto positivos como negativos no intervalo [-1, 1], e neste 
caso é provável que a sua média seja zero. Se a conectividade da rede for grande, a aprendizagem 
por retropropagação com funções de ativação anti-simétricas pode produzir uma convergência mais 
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FIGURA 4.19 (a) Dados ajustados adequadamente (boa generalização) 
(b) Dados ajustados em axcasso (generalização pobre) 


procurar um mapeamento não-linear suave para relações de entrada-saida mal-formuladas, de modo 
que a rede seja capaz de classificar corretamente novos padrões em relação aos padrões de treina- 
mento (Wieland e Leighton, 1987). 


Tamanho Suficiente do Conjunto de Treinamento para uma Generalização Válida 


A generalização é influenciada por trés fatores: (1) o tamanho do conjunto de treinamento, e o quão 
representativo do ambiente de interesse ele é, (2) a arquitetura da rede neural e (3) a complexidade 
fisica do problema em questão. Evidentemente, não temos controle sobre o último fator. No contex- 
to dos outros dois fatores, podemos ver a questão da generalização sob duas perspectivas diferentes 
(Hush e Horne, 1993): 
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e A arquitetura da rede é fixa (provavelmente de acordo com a complexidade fisica do problema 
relacionado), e a questão a ser resolvida é determinar o tamanho do conjunto de treinamento 
necessário para que ocorra uma boa generalização. 

+ O tamanho do conjunto de treinamento é fixo, e a questão de interesse é determinar a melhor 
arquitetura para alcançar boa generalização. 


Estes dois pontos de vista são válidos em seus aspectos individuais. Na presente discussão, nós nos 
concentramos no primeiro ponto de vista. 

A adequação do tamanho da amostra de treinamento ou o problema da complexidade da amostra 
é discutido no Capitulo 2. Como ressaltado naquele capítulo, a dimensão V-C fornece a base teórica 
para uma solução bem-fundamentada para este importante problema. Em particular, temos fórmu- 
las independentes de distribuição e de pior caso para estimar o tamanho da amostra de treinamento 
que é suficiente para um bom desempenho de generalização; veja a Seção 2.14. Infelizmente, cons- 
tatamos com frequencia que existe uma diferença numérica imensa entre o tamanho da amostra de 
treinamento realmente necessária e aquela prevista por estas fórmulas. É esta diferença que tem 
tornado o problema da complexidade da amostra uma área de pesquisa em aberto, 

Na prática, parece que tudo de que precisamos para uma boa generalização é que o tamanho 
do conjunto de treinamento N satisfaça a condição 


N= o(=) (4.85) 


E 


onde W è o número total de parâmetros livres (Le., pesos sinápticos e níveis de bias) da rede e € 
representa a fração de erros de classificação permitida sobre os dados de teste (como na classifica- 
ção de padrões) e O(-) representa a ordem da quantidade entre parênteses. Por exemplo, com um 
erro de 10 por cento, o número de exemplos de treinamento necessários deve ser cerca de 10 vezes 
maior que o número dos parâmetros livres da rede. 

A Equação (4.85) está de acordo com a regra empirica de Widrow para o algoritmo LMS, que 
afirma que o tempo de acomodação para a adaptação na filtragem temporal linear adaptativa é 
aproximadamente igual à extensão temporal de memória de um filtro de linha de atraso com deriva- 
ções dividido pelo desajuste (Widrow e Stearns, 1985). O desajuste no algoritmo LMS desempenha 
um papel até certo ponto análogo ao erro e na Eq. (4.85). Outras justificativas para esta regra empírica 
são apresentadas na próxima seção. 


4.13 APROXIMAÇÃO DE FUNÇÕES 


Um perceptron de múltiplas camadas treinado com o algoritmo de retropropagação pode ser visto 
como um veiculo prático para realizar um mapeamento não-linear de entrada-saida de natureza 
geral, Para sermos especificos, considere que m, represente o número de nós (de fonte) de entrada 
de um perceptron de múltiplas camadas e M = m, represente o número de neurônios na camada de 
saida da rede. A relação de entrada-saida da rede define um mapeamento de um espaço de entrada 
euclidiano de dimensão m, para um espaço de saída euclidiano de dimensão M, que é infinitamente 
continuamente diferenciável quando a função de ativação também o for. Para estimar a capacidade 


do perceptron de múltiplas camadas deste ponto de vista do mapeamento de entrada-saída, surge a 
seguinte questão fundamental: 


Qual ё o numero minimo de camadas ocultas em um perceptron de múltiplas camadas com um 


mapeamento de entrada-saida que fornece uma realização aproximada de qualquer mapeamento 
continúo? 
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destas funções, O uso de um perceptron de múltiplas camadas para aproximação de funções parece 
que oferece uma vantagem sobre as funções suaves tradicionais, esta vantagem está, entretanto, 
sujeita à condição de que o primeiro momento absoluto C, permaneça finito; esta é uma restrição de 
suavidade. 

A maldição da dimensionalidade fol introduzida por Richard Bellman em seus estudos sobre 
processos de controle adaptativos (Bellman, 1961). Para uma interpretação geométrica desta noção, 
suponha que x represente um vetor de entrada de dimensão m, e f(x, dj. i = l, 2,..., V, represente 
a amostra de treinamento. A densidade de amostragem é proporcional a NY”, Suponha que uma 
função Ax) represente uma superficie contida no espaço de entrada de dimensão т que passa 
próximo aos pontos de dados ((x,.d, jb. . Agora, se a função f(x) for arbitrariamente complexa e 
(em grande parte) totalmente desconhecida, precisamos de pontos de amostras (dados) densos para 
aprendé-la bem. Infelizmente, amostras densas são dificeis de se encontrar em “dimensões eleva- 
das", dai a maldição da dimensionalidade. Em particular, hà um crescimento exponencial na com- 
plexidade como resultado do aumento na dimensionalidade, que, por sua vez, leva à deterioração 
das propriedades de preenchimento do espaço para pontos distribuidos aleatoriamente em espaços 
de dimensões mais elevadas. A razão básica para a maldição da dimensionalidade é (Friedman, 
1995): 


Uma função definida em um espaço de alta dimensionalidade é provavelmente muito mais comple- 
xa do que uma função definida em um espaço de baixa dimensionalidade, e estas complicações são 
mais dificeis de se perceber. 


O único modo prático de quebrar a maldição da dimensionalidade é incorporar conhecimento pré- 
vio sobre a função, além dos dados de treinamento, que sabidamente seja correto. 

Na prática, pode-se argumentar também que para se ter alguma esperança de hoa estimativa 
em um espaço de alta dimensionalidade, devemos assegurar que a suavidade da função desconheci- 
da seja crescente com o aumento da dimensionalidade do espaço de entrada (Niyogi e Girosi, 1996). 
Este ponto de vista é desenvolvido mais detalhadamente no Capítulo 5. 


Considerações Práticas 


O teorema da aproximação universal é importante do ponto de vista teórico, porque fornece a ferra- 
menta matematica necessaria para a viabilidade das redes alimentadas adiante com uma única 
camada oculta como uma classe de soluções aproximativas. Sem este teorema, poderiamos estar 
procurando por uma solução que não pode existir. Entretanto, o teorema não é construtivo, isto é, 
não especifica realmente como determinar um perceptron de múltiplas camadas com as proprieda- 
des aproximativas formuladas. 

О teorema da aproximação universal assume que a função continua a ser aproximada é dada e 
que está disponível uma camada oculta de tamanho ilimitado para a aproximação. Estas duas supo- 
sições são violadas na maioria das aplicações práticas de perceptrons de múltiplas camadas. 

O problema com perceptrons de múltiplas camadas que usam uma única camada oculta é 
que os neurônios nesta camada tendem a interagir entre si globalmente. Em situações complexas, 
esta interação torna dificil de melhorar a aproximação em um ponto sem piorá-la em algum outro 
ponto. Por outro lado, com duas camadas ocultas o processo de aproximação (ajuste de curva) se 
torna mais gerenciável. Em particular, podemos proceder como segue (Funahashi, 1989; Chester, 
1990): 
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1. As caracteristicas locais são extraidas na primeira camada oculta. Especificamente, alguns 
neurônios da primeira camada oculta são usados para dividir o espaço de entrada em regiões e 
outros neurónios naquela camada aprendem as caracteristicas locais daquelas regióes. 

2. Ascaracteristicas globais são extraidas na segunda camada oculta. Especificamente, um neurônio 
na segunda camada oculta combina as saidas de neurónios da primeira camada oculta operando 
em uma região particular do espaço de entrada, e com isso aprende as caracteristicas globais 
para aquela região e fornece zero como saida nas outras regiões. 


Este processo de aproximação de dois estágios é similar em filosofia à técnica spline para ajuste de 
curvas, no sentido de que os efeitos dos neurónios são isolados e as aproximações em regiões 
diferentes do espaço de entrada podem ser ajustadas individualmente. Um spline é um exemplo de 
uma aproximação polinomial por partes. 

Sontag (1992) fornece uma justificativa adicional para a utilização de duas camadas ocultas 
no contexto dos problemas inversos. Especificamente, o seguinte problema inverso é considerado: 


Dada uma função continua de valor vetorial f: E" — RY, um subconjunto compacto € c R" que 
está incluido na imagem de f, e um € > 0, encontre uma função de valor vetorial q: RY — R” tal que 
a seguinte condição seja satisfeita: 


lf(u)) -u| <e parau e € 


Este problema surge na cinemática inversa (dinâmica), onde o estado observado хт) de um sistema 
é uma função das ações correntes u(ri) e do estado anterior хін — 1) do sistema, como mostrado por 


хіп) = fixin = 1).u(n)) 


Assume-se que f pode ser invertida, de modo que podemos resolver para u(n) como uma função de 
хіп) para qualquer x(n — 1). A função f representa a cinemática direta, enquanto que a função ф 
representa a cinemática inversa. Em termos práticos, a motivação é encontrar uma função ф que seja 
computável por um perceptron de múltiplas camadas. Em geral, para resolver o problema da 
cinemática inversa são necessárias funções q descontinuas. É interessante que mesmo se for 
permitido o uso de modelos neurais com funções de ativação descontínuas, uma única camada 
oculta não é suficiente para garantir a solução de todos estes problemas inversos, enquanto que 
perceptrons de múltiplas camadas com duas camadas ocultas são suficientes para todo f, € ee 
(Sontag, 1992). 


4.14 VALIDAÇÃO CRUZADA 


A essência da aprendizagem por retropropagação é codificar um mapeamento de entrada-saida 
(representado por um conjunto de exemplos rotulados) nos pesos sinápticos e limiares de um 
perceptron de múltiplas camadas. Esperamos é que a rede se torne bem-treinada de modo que 
aprenda o suficiente sobre o passado para generalizar no futuro. Desta perspectiva, o processo de 
aprendizagem se transforma em uma escolha de parametrização da rede para este conjunto de da- 
dos, Mais especificamente, podemos ver o problema de seleção da rede como a escolha, dentre um 
conjunto de estruturas de modelo candidatas (parametrizações), a “melhor” de acordo com um 
certo critério. 
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Neste contexto, uma ferramenta padrão da estatística conhecida como validação cruzada for- 
nece um princípio orientador atraente” (Stone, 1974, 1978). Primeiramente, o conjunto de dados 
disponível é dividido aleatoriamente em um conjunto de treinamento e em um conjunto de teste. O 
conjunto de treinamento é dividido adicionalmente em dois subconjunto disjuntos: 


+ Subconjunto de estimação, usado para selecionar o modelo. 
«+ Subconjunto de validação, usado para testar ou validar o modelo. 


A motivação aqui é validar o modelo com um conjunto de dados diferente daquele usado para 
estimar os parámetros. Desta forma, podemos usar o conjunto de treinamento para avaliar o desem- 
penho de vários modelos candidatos e, assim, escolher o “melhor”. Há, entretanto, uma possibilida- 
de considerável de que o modelo assim selecionado, com os valores de parâmetros com melhor 
desempenho, possa acabar ajustando excessivamente o subconjunto de validação. Para nos resguar- 
darmos desta possibilidade, o desempenho de generalização do modelo selecionado é medido sobre 
o conjunto de teste, que é diferente do subconjunto de validação. 

O uso de validação cruzada é atrativo particularmente quando temos que projetar uma rede 
neural grande cujo objetivo seja uma boa generalização. Podemos, por exemplo, utilizar a validação 
cruzada para determinar o perceptron de múltiplas camadas com o melhor número de neurônios 
ocultos e quando é melhor parar o treinamento, como descrito nas próximas duas subsecções. 


Seleção do Modelo 


A idéia de selecionar um modelo de acordo com a validação cruzada segue uma filosofia similar a 
da minimização estrutural do risco, descrita no Capítulo 2, Considere então uma estrutura aninhada 
de classes de funções booleanas representadas por 


Ferro cs, 


S= [51 (4.91) 
= [Fix wiweW,), k=] 


Em palavras, a k-ésima classe de funções F, abrange uma familia de perceptrons de múltiplas 
camadas com arquitetura similar e vetores de peso w retirados de um espaço de pesos 
multidimensional W, Um membro desta classe, caracterizado pela função ou hipótese FF, = F(x,w), 
we W,. mapeia o vetor de entrada x em (0,1+, onde x é retirado de um espaço de entrada Æ com 
uma probabilidade desconhecida P. Cada perceptron de múltiplas camadas da estrutura descrita é 
tremado com o algoritmo de retropropagação, que é responsável pelo treinamento dos parámetros 
do perceptron de múltiplas camadas. O problema da seleção do modelo é essencialmente o de 
escolher o perceptron de multiplas camadas com o melhor valor de HW, o número de parámetros 
livres (Le., pesos sinápticos e níveis de bias). Mais precisamente, dado que a resposta escalar dese- 
jada para um vetor de entrada x é d = {0,1}, definimos o erro de generalização como 


e (F) = PUEDO = d) parax e X 


Recebemos um conjunto de treinamento com exemplos rotulados 


T = (1,4, 
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О objetivo é selecionar a hipótese F(x,w) que minimiza o erro de generalização є AF) que resulta 
quando são fornecidas entradas do conjunto de teste. 

No desenvolvimento à seguir, assumimos que a estrutura descrita pela Eq. (4.91) tem a 
propriedade de que para qualquer tamanho de amostra N sempre podemos encontrar um perceptron 
de múltiplas camadas com um número suficientemente grande de parâmetros livres H^... (А), tal 
que o conjunto de dados de treinamento Y possa ser ajustado adequadamente. Isto equivale sim- 
plesmente a reformular o teorema da aproximação universal da seção 4.13. Nós nos referimos a 
WEN) como o número de ajuste. A importância de И (N) é que um procedimento razoável de 
seleção de modelo escolheria uma hipótese F(x,w) que requeira WS IF (N); caso contrário, a 
complexidade da rede seria aumentada. 

Suponha que um parâmetro r, no intervalo entre 0 e 1, determine a partição do conjunto de 
treinamento Y entre o subconjunto de estimação e o subconjunto de validação. Com Y consistindo 
de N exemplos, (1 — r)N exemplos são destinados ao subconjunto de estimação e os rV exemplos 
restantes são alocados para o subconjunto de validação. O subconjunto de estimação, representado 
por Y ', é usado para treinar uma sequência aninhada de perceptrons de múltiplas camadas, resul- 
tando nas hipóteses F. Ж. + de complexidade crescente. Com T “composto de (1 — r)N exem- 
plos, consideramos valores de W menores que ou iguais ao número de ajuste correspondente W ((1 
— FIN). 


O uso de validação cruzada resulta na escolha 
F = min (e(F,)) (4.92) 


onde v corresponde a WSW (1 — r)N), ce (Fé o erro de classificação produzido pela hipótese 
$, quando é testada sobre o subconjunto de validação $”, consistindo de rN exemplos. 

А questão-chave é como especificar o parâmetro r que determina a partição do conjunto de 
treinamento Y entre o subconjunto de estimação T' e o subconjunto de validação 3". Em um 
estudo descrito por Kearns (1996) envolvendo um tratamento analítico desta questão utilizando a 
dimensão VC e suportado por simulações computacionais detalhadas, várias propriedades qualita- 
tivas do r ótimo são identificadas: 


* Quando a complexidade da função-alvo, que define a resposta desejada d em termos do vetor 
de entrada x, é pequena comparada com o tamanho da amostra N, o desempenho da validação 
cruzada é relativamente insensível à escolha de r. 

* Quando a função-alvo se torna mais complexa em relação ao tamanho da amostra N, a escolha 
do r ótimo tem um efeito mais pronunciado no desempenho da validação cruzada, e seu valor 
decresce. 


+ Um único valor fixo de r funciona de forma quase ótima para um grande intervalo de comple- 
xidade da função-alvo. 


Com base nestes resultados relatados por Kearns (1996), um valor fixo de r igual a 0,2 parece ser 
uma escolha sensata, significando que 80 por cento do conjunto de treinamento F são atribuidos 
ao subconjunto de estimação e os 20 por cento restantes são atribuidos ao subconjunto de valida- 
ção. 

Anteriormente, falamos de uma sequência aninhada de perceptrons de múltiplas camadas de 
complexidade crescente. Para camadas de entrada e de saida predeterminadas, esta sequência pode 
ser criada, por exemplo, tendo v = p + q perceptrons de múltiplas camadas totalmente conectados, 
estruturados como segue: 
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* p perceptrons de múltiplas camadas com uma única camada oculta de tamanho crescente 
hehe. «ho. 

* gperceptrons de múltiplas camadas com duas camadas ocultas; a primeira camada oculta tem 
tamanho / ' e a segunda camada oculta tem tamanho crescente hj <A, <...А,. 


Quando passamos de um perceptron de múltiplas camadas para o seguinte, há um aumento corres- 
pondente do número de parâmetros livres W. О procedimento de seleção de modelo baseado па 
validagáo cruzada como aqui descrito nos fornece uma abordagem bem-fundamentada para deter- 
minar o número de neurónios ocultos de um perceptron de múltiplas camadas. Apesar de o procedi- 
mento ter sido descrito no contexto de classificação binária, ele se aplica igualmente bem a outras 
aplicações do perceptron de múltiplas camadas. 


Método de Treinamento com Parada Antecipada 


Normalmente, um perceptron de múltiplas camadas treinado com o algoritmo de retropropagacáo 
aprende em estágios, partindo da realização de funções de mapeamento razoavelmente simples para 
funções mais complexas, conforme a sessão de treinamento avança. Isto é exemplificado pelo fato 
de que, em uma situação tipica, o erro médio quadrado decresce com o aumento do número de 
épocas durante o treinamento: ele começa com um valor grande, decresce rapidamente e então 
continua diminuindo lentamente conforme a rede segue seu caminho em direção a um minimo local 
na superficie de erro. Tendo como objetivo uma boa generalização, é muito dificil perceber quando 
é o melhor momento para encerrar o treinamento, se olharmos apenas para a curva de aprendiza- 
gem. Em particular, com base no que fot dito na Seção 4.12 sobre generalização, é possivel que a 
rede acabe sendo excessivamente ajustada aos dados de treinamento, se a sessão de treinamento nào 
for encerrada no ponto certo. 

Podemos identificar o inicio do excesso de treinamento através do uso da validação cruzada, 
pela qual os dados de treinamento são divididos em um subconjunto de estimação e em um 
subconjunto de validação. O subconjunto de exemplos de estimação é usado para treinar a rede na 
maneira usual, exceto por uma pequena modificação: a sessão de treinamento é interrompida peri- 
odicamente (i.e, após um número determinado de épocas), e a rede é testada com o subconjunto de 
validação após cada periodo de treinamento. Mais especificamente, o processo periódico de estima- 
ção seguida de validação prossegue como segue: 


* Após um periodo de estimação (treinamento), os pesos sinápticos e os niveis de bias do 
perceptron de múltiplas camadas são todos fixos, e a rede opera no seu modo direto, para 
frente. O erro de validação é então medido para cada exemplo do subconjunto de validação. 

* Quando a fase de validação é completada, a estimação (treinamento) é reiniciada para um 
novo periodo, e o processo é repetido. 


Este procedimento é referido como o método de treinamento com parada antecipada. 

A Figura 4,20 mostra formas conceituais de duas curvas de aprendizagem, uma relativa às 
medidas sobre o subconjunto de estimação e a outra relativa ao subconjunto de validação. Tipica- 
mente, o modelo não funciona tão bem sobre o subconjunto de validação do que sobre o conjunto de 
estimação, sobre o qual o projeto foi baseado. A curva de aprendizagem de estimação decresce 
monotonamente para um número crescente de épocas, da maneira usual, Diferentemente, a curva 
de aprendizagem de validação decresce monotonamente рага um mínimo e então começa a crescer 
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conforme o treinamento continua. Quando olhamos para a curva de aprendizagem de estima- 
cão pode parecer que poderiamos melhorar o desempenho indo além do ponto mínimo da curva de 
aprendizagem de validação. Na realidade, entretanto, o que a rede aprende após este ponto с essen- 
cialmente o ruído contido nos dados de treinamento. Esta heurística sugere que o ponto minimo na 
curva de aprendizagem de validação seja usado como critério sensato para encerrar a sessão de 
treinamento. 

О que acontece se os dados de treinamento não tiverem ruido? Como poderiamos então 
justificar a parada antecipada para um cenário deterministico? Parte da resposta neste caso é que se 
ambos os erros de estimação e de validação não podem ser levados a zero simultaneamente, isto 
implica que a rede não tem a capacidade de modelar exatamente a função. O melhor que podemos 
fazer nesta situação é tentar minimizar, por exemplo, o erro quadrado integrado, o que é equivalente 
(grosseiramente) a minimizar o erro médio quadrado global usual com uma densidade de entrada 
uniforme. 

A teoria estatística do fenómeno do excesso de ajuste apresentada em Amari et al, (1996) 
sugere precaução na utilização do método de treinamento com parada antecipada, А teoria é basea- 
da na aprendizagem por lote e apoiada por simulações computacionais detalhadas envolvendo um 
classificador por perceptron de múltiplas camadas com uma única camada oculta. Foram identifica- 
dos dois modos de comportamento, dependendo do tamanho do conjunto de treinamento: 

Modo näo-assintötico, para o qual N « W, onde N é o tamanho do conjunto de treinamento e W 
é o número de parámetros livres da rede. Para este modo de comportamento, o método de treina- 
mento com parada antecipada melhora o desempenho de generalização da rede em relação ao trei- 
namento exaustivo (i.e., quando o conjunto completo de exemplos é usado para o treinamento è a 
sessão de treinamento não é interrompida). Este resultado sugere que pode ocorrer excesso de ajus- 
te quando N « 30H, e que existe um mérito prático no uso de validação cruzada para parar o treina- 
mento. O valor ótimo do parâmetro r que determina à partição dos dados de treinamento entre o 
conjunto de estimação e o conjunto de treinamento é definido por 


ELA 
AW-1) 


Vime 7 


Para IF grande, esta fórmula é aproximada por 


P aimo = BIA W grande (4.93) 
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Para W= 100, por exemplo, r,. = 0.07, o que significa que 93 por cento dos dados de treinamento 
são alocados para o subconjunto de estimação e 7 por cento são alocados para o subconjunto de 
validação. 

Modo assintótico, para o qual № > 30H. Para este modo de comportamento, a melhoria no 
desempenho de generalização produzida pelo uso do método de treinamento com parada antecipa- 
da em relação ao treinamento exaustivo é pequena. Em outras palavras, a aprendizagem exaustiva é 
satisfatória quando o tamanho da amostra de treinamento é grande comparado com o número de 
parâmetros da rede. 


Variantes de Validação Cruzada 


A abordagem de validação cruzada descrita até aqui é referida como o método de resistência. Exis- 
tem outras variantes de validação cruzada que encontram seu próprio caminho na prática, particu- 
larmente quando hà uma escassez de exemplos rotulados. Nesta situação, podemos usar a validação 
cruzada multipla dividindo à conjunto disponivel de N exemplos em А subconjuntos, А > 1; isto 
presume que А é divisível por №. O modelo é treinado com todos os subconjuntos, exceto um, e o 
erro de validação é medido testando-o com este subconjunto deixado de lado no treinamento. Este 
procedimento é repetido para um total de Å tentativas, cada vez usando um subconjunto diferente 
para a validação, como ilustrado na Fig. 4.21 para K = 4. O desempenho do modelo é avaliado pela 
média do erro quadrado obtido na validação sobre todas as tentativas do experimento. Há uma 
desvantagem na validação cruzada múltipla: ela requer uma quantidade excessiva de cálculos, pois 
o modelo deve ser treinado À vezes, onde | < K € N. 


Tentativa i Г] [ ] LJ LJ 
FIGURA 4.21 Il 
domébdodavaidego Tml | C MO 


cruzada múltipla. Para 
uma dada tentativa, O 


subconjunto de dados Temas | EI DI) DI 


sombreado é usado para 
validar o modelo treinado 


com os dados restantes Tentativa 4 TJ C] Г] ER 


Quando o número de exemplos rotulados disponíveis, N, for severamente limitado, podemos 
usar a forma extrema de validação cruzada múltipla conhecida como o método deixe um de fora. 
Neste caso, № — 1 exemplos são usados para treinar o modelo, e o modelo é validado testanda-o 
sobre o exemplo deixado de fora. O experimento é repetido para um total de N vezes, cada vez 
deixando de fora um exemplo diferente para a validação. O erro quadrado na validação é então a 
média sobre as N tentativas do experimento. 


4.15 TÉCNICAS DE PODA DE REDE 


Para resolver problemas do mundo real com redes neurais, normalmente é necessário o uso de redes 
de tamanho bastante grande, altamente estruturadas. Uma questão prática que surge neste contexto 
é a da minimização do tamanho da rede mantendo bom desempenho. É menos provável que uma 
rede neural com tamanho minimo aprenda as idiossincrasias ou ruído dos dados de treinamento, e 
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pode assim generalizar melhor sobre novos dados. Podemos alcançar este objetivo de projeto de 
duas formas: 


* Pelo crescimento da rede, começando com um perceptron de múltiplas camadas pequeno, 
pequeno para realizar a tarefa em questão, e então adicionando um novo neurônio ou uma 
nova camada de neurônios ocultos somente quando formos incapazes de satisfazer as 
especificações de projeto." 

* Pela poda da rede, começando com um perceptron de múltiplas camadas grande, com um 
desempenho adequado para o problema em questão, e então podando-o pela redução ou elimi- 
nação de certos pesos sinápticos de uma forma seletiva e ordenada. 


Nesta seção, enfocamos a poda da rede. Em particular, descrevemos duas abordagens, uma baseada 
em uma forma de “regularização”, e outra baseada na “eliminação” de certas conexões sinápticas 


da rede. 


Regularização da Complexidade 


No projeto de um perceptron de múltiplas camadas por qualquer método que seja, estamos de fato 
construindo um modelo não-linear do fenômeno fisico responsável pela geração dos exemplos de 
entrada-saida usados para treinar a rede. Na medida em que o projeto da rede é de natureza estatis- 
tica, precisamos de um compromisso adequado entre confiabilidade dos dados de treinamento e a 
qualidade do modelo (i.e., um método para resolver o dilema bias-variäncia). No contexto da apren- 
dizagem por retropropagação, ou em qualquer outro procedimento de aprendizagem supervisiona- 
da para aquele problema, podemos realizar este compromisso minimizando o risco total, expresso 
Como. 


Rom) = ECW) +A EW) (4.94) 


O primeiro termo, Ei w), 6a medida de desempenho, que depende tanto da rede (modelo) como dos 
dados de entrada. Na aprendizagem por retropropagação, ela é tipicamente definida como um erro 
médio quadrado cujo cálculo se estende sobre os neurônios de saida da rede e que é realizado para 
todos os exemplos de treinamento, de época em época, O segundo termo, É (w), é a punição da 
complexidade, que depende apenas da rede (modelo); a sua inclusão impõe à solução conhecimento 
prévio que possamos ter sobre os modelos que estão sendo considerados. Na verdade, a forma do 
risco total definida na Eq. (4.94) é simplesmente uma formulação da teoria da regularização de 
Tikhonov; este assunto é detalhado no Capitulo 5. Para a presente discussão, é suficiente conside- 
rarmos À como um parámetro de regularização, que representa a importância relativa do termo de 
punição da complexidade em relação ao termo de medida de desempenho. Quando À é zero, o 
processo de aprendizagem por retropropagação é irrestrito, com a rede sendo totalmente determina- 
da pelos exemplos de treinamento. Quando À é infinitamente grande, por outro lado, a implicação é 
que a restrição imposta pela punição da complexidade é por si só suficiente para especificar a rede, 
o que ё uma outra forma de dizer que os exemplos de treinamento não são confiáveis. Em aplica- 
ções práticas do procedimento de decaimento de peso, atribui-se ao parâmetro de regularização À 
um valor entre estes dois casos limites. O ponto de vista aqui descrito para a utilização da regulari- 
zação da complexidade para melhorar a generalização é inteiramente consistente com o procedi- 
mento de minimização estrutural de risco, discutido no Capitulo 2, 
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Em uma situação genérica, uma escolha do termo de punição da complexidade € (w) é a integral 
de suavização de k-ésima ordem 


i 


(хах (4.95) 








Е _(w,k)= лаи) 
E t 


onde Fix,w) é o mapeamento de entrada-saida realizado pelo modelo, e рх) ё uma função de 
ponderação que determina a região do espaço de entrada sobre a qual F(x,w) deve ser suave. O 
objetivo é tornar pequena a &-ésima derivada de F(x,w) em relação ao vetor de entrada x. Quanto 
maior for o valor escolhido para £, mais suave (1.e., menos complexa) se tornará a função Flx,w). 

A seguir, descrevemos três diferentes regularizações de complexidade (com crescente sofisti- 
cação) para perceptrons de múltiplas camadas. 


Decaimento de Pesos. No procedimento de decaimento de pesos (Hinton, 1989), o termo de puni- 
ção da complexidade é definido como a norma quadrada do vetor de peso w (i.e, todos os parámetros 
livres) da rede, como mostrado por 


€ (м) = {№ 


= Y ш; 


[i ад 


(4.96) 


onde o conjunto €... se refere a todos os pesos sinápticos da rede. Este procedimento opera forgan- 
do alguns dos pesos sinápticos da rede a assumir valores próximos a zero, enquanto permite que 
outros pesos retenham seus valores relativamente elevados. Conseqüentemente, os pesos da rede 
são agrupados grosseiramente em duas categorias: aqueles que têm uma grande influência sobre a 
rede (modelo), e aqueles que tém pequena ou nenhuma influência sobre ela. Os pesos desta última 
categoria são referidos como pesos excessivos. Na ausência de regularização da complexidade, 
estes pesos resultam em uma generalização pobre, em virtude da sua alta probabilidade de assumir 
valores totalmente arbitrários ou causar o ajuste excessivo dos dados pela rede, para produzir uma 
pequena redução no erro de treinamento (Hush e Horne, 1993). O uso de regularização de comple- 
xidade encoraja os pesos excessivos a assumirem valores próximos a zero, melhorando assim a 
generalização. 

No procedimento de decaimento de pesos, todos os pesos do perceptron de múltiplas camadas 
são tratados igualmente. Isto é, assume-se que a distribuição prévia no espaço de pesos esteja centrada 
na origem. Estritamente falando, o decaimento de pesos não é a forma correta de regularização da 
complexidade para um perceptron de múltiplas camadas, pois não se enquadra no raciocínio deseri- 
to na Eq. (4.95). Apesar disso, ele é simples e parece que funciona bem em certas aplicações. 


Eliminação de Pesos. Neste segundo procedimento de regularização de complexidade, a punição 
da complexidade é definida por (Weigend et al., 1991) 


£(w)e Y ЧО) (4.97) 


"wd ] 4 (wu, i ы, y 


onde tc, é um parámetro preestabelecido e w. se refere ao peso de uma sinapse i da rede, O conjunto 
E fe refere a todas as conexões sinápticas da rede. Um termo de punição individual varia corn ac / 
w, em uma forma simétrica, como mostrado na Fig. 4.22. Quando [te | € +0, a punição (custo) da 
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FIGURA 4.22 О termo de punição da complexidade (ue Fic JA + (10 йш] traçado em função de «wu. 


complexidade para aquele peso se aproxima de zero. A implicação desta condição é que, na medida 
em que se considere a aprendizagem por exemplos, o désimo peso sináptico não é confiável e 
deveria ser eliminado da rede. Por outro lado, quando [w | = w a punição (custo) da complexidade 
para aquele peso se aproxima do seu valor máximo, a unidade, o que significa que tw, é importante 
para o processo de aprendizagem por retropropagacáo. Vemos então que o termo de punição da 
complexidade da Eg. (4.97) serve ao propósito desejado de identificar os pesos sinápticos da rede 
que têm influência significativa. Note também que o procedimento de eliminação de pesos inclui o 
procedimento de decaimento de pesos como um caso especial; especificamente, para 10, grande, a 
Eq. (4.97) se reduz à forma mostrada na Eq. (4.96) exceto por um fator de escala. 

A rigor, o procedimento de eliminação de pesos também não é a forma correta de regulariza- 
ção da complexidade para perceptrons de múltiplas camadas porque não se ajusta à descrição 
especificada na Eq. (4.95). Apesar disso, com a escolha apropriada do parâmetro w ele permite que 
alguns pesos da rede assumam valores que são maiores que aqueles com decaimento de peso (Hush, 
1997). 


Suavizador Aproximativo. Em Moody e Rógnvaldsson (1997), é proposto o seguinte termo de 
punição da complexidade para um perceptron de múltiplas camadas com uma única camada oculta 
e um único neurônio na camada de saida: 


€ (м) = Yu 


Jul 











|? 
w‚l (4.98) 


onde os w, são os pesos da camada de saida, e w, é o vetor de peso para o j-ésimo neurônio da 
camada oculta; a poténcia p é definida por 


rs —| para um suavizador global 
B = 


2k para um suavizador local (4.99) 
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O procedimento do dano cerebral ótimo (DCO) (LeCun et al, 1990h) simplifica os cálculos fazen- 
do uma suposição adicional: a matriz hessiana Н ё uma matriz diagonal. Entretanto, tal suposição 
não é feita no procedimento do cirurgião cerebral ótimo (CCO) (Hassibi et al., 1992); conseqüente- 
mente, ele contém o procedimento DCO como um caso especial. De agora em diante, nós seguimos 
a estratégia CCO. 

O objetivo do CCO é fixar um dos pesos sinápticos em zero para minimizar o aumento 
incremental de € dado na Eq. (4.101). Suponha que 16 (n) represente este peso sináptico particu- 
lar. A eliminação deste peso é equivalente à condição 


Año +w = 0 
ou 
V1 Aw 16, = 0 (4.102) 


onde 1 ¿o vetor unitario cujos elementos são todos zero, exceto o i-ésimo elemento, que é igual à 
unidade. Podemos agora reformular o ohjetivo do CCO como (Hassibi et al., 1992): 


SEHEN: i: т ame "W717 
Minimize a forma quadrática + Aw HAw em relação à variação incremental do vetor peso, Aw, 
sujeita à restrição que 1, Aw + 26, seja zero, e então minimize o resultado em relação ao indice i. 


На dois níveis de minimização ocorrendo neste caso. Uma minimização acontece sobre os vetores 
de pesos sinápticos, que permanecem depois que o i-ésimo vetor de peso é colocado em zero, A 
segunda minimização é sobre aquele vetor particular que é podado, 

Para resolver este problema de otimização com restrições, primeiro construímos о 
lagrangiano 


S= Aw^HAw - М1/ Aw +) (4.103) 
onde À é o multiplicador de Langrage. Então, calculando a derivada do lagrangiano $, com respeito 


a Aw, aplicando a restrição da Eq. (4.102) e usando a inversão matricial, constatamos que a modifi- 
cação ótima do vetor peso w é 


Аз = CE (4.104) 





$ = н] | (4.105) 


onde Н" é a inversa da matriz hessiåna Н, e [H'] | € o ii-ésimo elemento desta matriz inversa, О 
lagrangiano Sa otimizado em relação a Aw, sujeito à restrição que o i-ésimo peso sináptico u seja 
eliminado, é denominado a saliência de w. Na verdade, a saliência 8, representa о aumento no emo 
médio quadrado (medida de desempenho), que resulta da eliminação de w, Note que a saliência 5 
é proporcional a w7, Assim, pequenos pesos têm um efeito pequeno no erro médio quadrado, Entre- 
tanto, da Eq. (4.105) € possivel constatar que a saliência 5 é também inversamente proporcional aos 
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elementos da diagonal da inversa da hessiana. Desta forma, se [H^] for pequeno, então mesmo 
pesos pequenos deverão ter um efeito substancial no erro médio quadrado. 

No procedimento CCO, o peso correspondente à menor saliência é aquele selecionado para a 
eliminação, Além disso, as modificações ótimas correspondentes nos pesos restantes são dadas pela 
Eq. (4.104), que mostra que deveriam ser atualizados ao longo da direção da i-ésima coluna da 
inversa da hessiana. 

Em seu artigo, Hassibi et al. relatam que, em alguns problemas padrão (benchmark), o proce- 
dimento CCO resultou em redes menores que aquelas obtidas utilizando o procedimento de 
decaimento de peso. Foi também relatado que, como resultado da aplicação do procedimento de 
CCO ao perceptron de múltiplas camadas do NETtalk, envolvendo uma única camada oculta e 
18.000 pesos, a rede fora podada a não mais que 1560 pesos, uma redução drástica no tamanho da 
rede. O NE Talk, de Seinowski e Rosenberg (1987), é descrito no Capitulo 13. 


Computando a inversa da matriz hessiana. A matriz inversa da hessiana Н! é fundamental à 
tarmulacáo do procedimento ССО, Quando о número de parámetros livres da rede, W, é grande, o 
problema de computar H^ pode ser intratável. A seguir, descrevemos um procedimento tratável 
para computar H^', assumindo que o perceptron de múltiplas camadas esteja totalmente treinado 
para um minimo local na superficie de erro (Hassibi et al., 1992). 

Para simplificar a apresentação, suponha que o perceptron de múltiplas camadas possua um 
único neurônio de saida. Então, para um dado conjunto de treinamento, podemos expressar a fun- 
ção de custo como 


E | E 4 
Е ат) = zp zum) — o(n)) 


onde o(n) é a saída real da rede durante a apresentação do п-ёвїтө exemplo, din) ё a resposta 
desejada correspondente, e N é o número total de exemplos do conjunto de treinamento. A saida 
oln) pode ser expressa como 


ол} = Flw, x) 


onde F é a função do mapeamento de entrada-saida realizado pelo perceptron de múltiplas cama- 
das, x é o vetor de entrada, e w é o vetor de pesos sinápticos da rede. A derivada primeira de €. ‚em 
relação a w é portanto 

TE | x Fw 
Des xl me (dr - or) (4.106) 


ea derivada segunda de É ет relação a w ou a matriz hessiana é 


E 
ВИЕ 
А (ас, хл) Y aF(w,x(n)) Y. 
ze (4.107) 
o^ Fw, x(n)) 
ow 


din) ot) 
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Estas duas propriedades da aprendizagem por retropropagação no contexto de um perceptron de 
multiplas camadas são responsáveis por suas vantagens e desvantagens. 


Conexionismo 


O algoritmo de retropropagação é um exemplo de um paradigma conexionista que se baseia em 
cálculos locais para descobrir as capacidades de processamento de informação das redes neurais, 
Esta forma de restrição computacional é referida como a restrição de localidade, no sentido de que 
a computação realizada pelo neurônio é influenciada apenas por aqueles neurônios que estão em 
contato físico com ele. O uso de computação local no projeto de redes neurais artificiais é normal- 
mente defendido por três razões principais: 


1. As redes neurais artificiais que realizam computação local são frequentemente tidas como me- 
táforas para as redes neurais biológicas. 

2. О uso de computação local permite uma degradação suave no desempenho devido a erros dos 
componentes fisicos e, portanto, fornece a base para um projeto de rede tolerante a falhas, 

3. A computação local favorece a utilização de arquiteturas paralelas como método eficiente para 
a implementação de redes neurais artificiais. 


Considerando estes trés pontos em ordem inversa, O ponto 3 é inteiramente justificável no caso da 
aprendizagem por retropropagagäo. Em particular, o algoritmo de retropropagação tem sido 
implementado com sucesso em computadores paralelos por muitos pesquisadores, e arquiteturas 
VLSI têm sido desenvolvidas para a realização fisica de perceptrons de múltiplas camadas 
(Hammerstrom, 19923, 1992b), O ponto 2 é justificável desde que certas precauções sejam tomadas 
na aplicação do algoritmo de retropropagação, como descrito em Kerlirzin e Vallet (1993). No que 
diz respeito ao ponto 1, em relação à plausibilidade biológica da aprendizagem por retropropagação, 
isto tem sido seriamente questionado pelas seguintes razões (Shepherd, 1990b; Crick, 1989; Stork, 
1989): 


1. As conexões sinápticas reciprocas entre os neurônios de um perceptron de múltiplas camadas 
podem assumir pesos que são excitatórios ou inibitórios. No sistema nervoso real, contudo, os 
neurônios normalmente aparecem como sendo de um tipo ou de outro. Essa é uma das mais 
sérias suposições näo-realisticas feitas em modelos de redes neurais. 

2. Em um perceptron de múltiplas camadas, as comunicações hormonais ou outros tipos de comu- 
nicações globais são ignoradas. Em sistemas nervosos reais, estes tipos de comunicação global 
são cruciais para as funções de ajuste de estado, como o despertar, a atenção e o aprendizado. 

3. Na aprendizagem por retropropagação, um peso sináptico é modificado por uma atividade pré- 
sináptica e um sinal de erro (de aprendizagem), independentemente da atividade pós-sináptica. 
На evidências da neurobiologia que sugerem o contrário. 

4. Em um sentido neurobiológico, a implementação da aprendizagem por retropropagação requer 
a rápida retropropagação da informação ao longo de um axónio. Parece altamente improvável 
que uma operação deste tipo realmente ocorra no cérebro. 

5. A aprendizagem por retropropagação implica a existência de um “professor”, que no contexto 
do cérebro seria presumivelmente um outro conjunto de neurônios com propriedades inusita- 
das. À existência de tais neurônios é biologicamente implausivel. 


Entretanto, estes receios neurobiológicos não depreciam a importância técnica da aprendizagem 
por retropropagação como ferramenta para processamento de informação, como evidenciado por 
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sua aplicação bem-sucedida em numerosos campos altamente diversificados, incluindo a simulação 
de fenómenos neurobiológicos (veja, por exemplo, Robinson (1992)). 


Detecção de Caracteristicas 


Como discutido na Seção 4.9, os neurônios ocultos de um perceptron de múltiplas camadas treina- 
do com o algoritmo de retropropagação desempenham um papel crucial como detectores de carac- 
teristicas. Uma forma inovadora na qual esta propriedade importante do perceptron de múltiplas 
camadas pode ser explorada é o seu uso como um replicador ou mapa de identidade (Rumelhart et 
al., 986b; Cottrel et al, 1987). A Figura 4.23 ilustra como isto pode ser realizado para o caso de um 
perceptron de múltiplas camadas utilizando uma única camada oculta. À planta da rede satisfaz as 
seguintes exigências estruturais, como ilustrado na Fig. 4.23a: 


a As camadas de entrada e de saida têm o mesmo tamanho, m. 
* O tamanho da camada oculta, M, é menor que m. 
* A rede é totalmente conectada. 


Um dado padrão, x, é aplicado simultaneamente à camada de entrada como o estimulo e à camada 
de saida como a resposta desejada. Pretende-se que a resposta real da camada de saída, х, seja uma 
“estimativa” de x. À rede é treinada usando-se o algoritmo de retropropagação na forma usual, com 
o vetor erro estimativo (x — X) tratado como o sinal de erro, como ilustrado na Fig. 4.23h. O treina- 
mento é realizado de uma maneira ndo-supervisionada (i.e.n sem a necessidade de um professor). 
Em virtude da estrutura especial incorporada no projeto do perceptron de múltiplas camadas, a rede 
с obrigada a realizar o mapeamento de identidade através da sua camada oculta. Uma versão codi- 
ficada do padrão de entrada, representada por s, é produzida na saida da camada oculta, como 
representado na Fig. 4. 23а, Na verdade, o perceptron de múltiplas camadas totalmente treinado 
desempenha o papel de um “codificador”. Para reconstruir uma estimativa X do vetor de entrada 
original x (i.e, realizar a decodificação), aplicamos o sinal codificado à camada oculta da rede 
replicadora, como ilustrado na Fig. 4.23c. Na verdade, esta última rede desempenha o papel de um 
“decodificador”. Quanto menor for feito o tamanho M da camada oculta comparado com o tamanho 
m da camada de entrada/saída, mais efetiva será a configuração da Fig. 4.23a como um sistema de 
compressão de dados," 


Aproximação de Função 


Um perceptron de múltiplas camadas treinado com o algoritmo de retropropagação se manifesta 
como um esquema aninhado siemáide, escrito na seguinte forma compacta para o caso de uma 


ünica saida: 
| j f 
F(x,w)= o 2 wat y zz i 4 Y un, Ji (4.113) 
k sd i 


onde {+} é uma função de ativação sigmóide comum, ш, € o peso sináptico do neurônio k na 
última camada oculta para o único neurônio de saida o, e assim por diante para os outros pesos 
sinápticos, e x, € o j-ésimo elemento do vetor de entrada x. O vetor de peso w representa o conjunto 
inteiro de pesos sinápticos ordenados por camada, por neurônios em uma camada e, então, por 
sinapses em um neurônio, O esquema de funções náo-lineares aninhadas descrito na Eq. (4.113) é 
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Robustez 


No Capitulo 3, ressaltamos que o algoritmo LMS é robusto no sentido de que perturbações com 
pequena energia podem causar apenas erros estimativos pequenos. Se o modelo de observação subjacente 
€ linear, o algoritmo LMS é um filtro AF -ótimo (Hassibt et al., 1993, 1996). Isto significa que o 
algoritmo LMS minimiza o ganho maximo de energia das perturbacóes dos erros estimativos. 

Por outro lado, se o modelo subjacente for não-linear, Hassibi e Kailath (1995) mostraram que 
o algoritmo de retropropagação ё um filtro localmente FF -ötime, O termo "local" usado aqui 
significa que o valor inicial do vetor de peso usado no algoritmo de retropropagação está suficiente- 
mente próximo do valor ótimo do vetor de peso w*, de modo a assegurar que o algoritmo nào fique 
preso em um minimo local pobre. Em termos conceituais, é bom saber que o algoritmo LMS e o 
algoritmo por retropropagação pertencem à mesma classe de filtros AF -ótimos. 


Convergência 


O algoritmo de retropropagação usa uma “estimativa instantânea” para o gradiente da superficie de 
erro no espaço de pesos. O algoritmo é, portanto, de natureza estocastica, isto é, tem tendência a 
ziguezaguear em tomo da verdadeira direção que leva a um minimo na superficie de erro, De fato, 
a aprendizagem por retrópropagação é uma aplicação de um método estatístico conhecido como 
aproximação estocástica que foi originalmente proposto por Robbins e Monro (1951). Conseqüen- 
temente, tende a convergir lentamente. Podemos identificar duas causas fundamentais para esta 
propriedade (Jacobs, 1998): 


1. A superficie de erro é razoavelmente plana ao longo de uma dimensão do peso, o que significa 
que a derivada da superficie de erro em relação áquele peso é pequena em magnitude. Nesta 
situação, o ajuste aplicado ao peso é pequeno, e consequentemente podem ser necessárias mui- 
tas iterações do algoritmo para produzir uma redução significativa do indice de desempenho da 
rede em relação ao erro. Alternativamente, a superficie de erro é muito curva ao longo de uma 
dimensão do peso; neste caso, a derivada da superficie de erro em relação ao peso é grande em 
magnitude. Nesta segunda situação, о ajuste aplicado ao peso é grande, o que pode levar o 
algoritmo a exceder o minimo da superficie de erro. 

2. A direção do vetor gradiente negativo (Le., a derivada negativa da função de custo em relação 
ao vetor de pesos) pode não apontar para o minimo da superficie de erro: com isso, os ajustes 
aplicados aos pesos podem induzir o algoritmo a se mover na direção errada. 


Conseqüentemente, a taxa de convergência na aprendizagem por retropropagação tende a ser relati- 
vamente baixa, o que, por sua vez, pode tornar o algoritmo martirizante do ponto de vista 
computacional, De acordo com o estudo empírico de Saarinen et al. (1992), as taxas locais de 
convergência do algoritmo de retropropagação são lineares, o que é justificado pelo argumento que 
a matriz jacobiana é quase deficiente em posto, assim como a matriz hessiana. Estas são conseqüén- 
cias da natureza intrinsecamente mal-condicionada dos problemas de treinamento de redes neurais. 
Saarinen et al. interpretam as taxas locais lineares de convergência da aprendizagem por 
retropropagação de duas maneiras: 


+ Esta € uma reivindicação do algoritmo de retropropagação (descida do gradiente), no sentido 
de que métodos de ordem mais alta podem não convergir muito mais rapidamente enquanto 
que exigem maior esforço computacional, ou 
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• Os problemas de treinamento de redes neurais em grande escala são tão inerentemente dificeis 
que não existe uma estratégia de aprendizagem que seja realizável, podendo ser necessárias 
outras abordagens como o uso de pré-processamento. 


Exploramos mais profundamente esta questão da convergência na Seção 4.17 e exploramos a ques- 
tão do pré-processamento das entradas no Capítulo 8. 


Minimos Locais 


Uma outra peculiaridade da superficie de erro que causa impacto sobre o desempenho do algoritmo 
de retropropagação é a presença de minimos locais (i.e, vales isolados), adicionalmente aos mini- 
mos globais. Como a aprendizagem por retropropagação é basicamente uma técnica de “escalada 
de colina”, ela corre o risco de ficar presa em um mínimo local, onde toda pequena variação dos 
pesos sinápticos causa aumento da função de custo. Entretanto, em algum outro lugar do espaço de 
pesos, existe um outro conjunto de pesos sinápticos para o qual a função de custo é menor que o 
minimo local no qual a rede se encontra presa. É evidentemente indesejável que o processo de 
treinamento termine em um minimo local, especialmente se ele estiver muito distante do minimo 
global. 

A questão dos mínimos locais na aprendizagem por retropropagação foi levantada no epilogo 
da edição estendida do clássico livro de Minsky e Papert (1988), onde a maior parte da atenção está 
concentrada em uma discussão do livro em dois volumes, Paralle! Distributed Processing, de 
Rumelhart e McClelland (1986), No Capítulo 8 deste último livro, afirma-se que ficar preso em um 
minimo local raramente é um problema prático para a aprendizagem por retropropagação. Minsky 
c Papert opóem-se a isto, salientando que toda a história do reconhecimento de padrões mostra o 
contrário. Gon e Tesi (1992) descrevem um exemplo simples onde, embora um conjunto de padrões 
não linearmente separáveis pudesse ser aprendido por uma rede com uma única camada oculta, o 
algoritmo de retropropagação pode ficar preso em um minimo local." 


Escalamento 


A principio, os perceptrons de múltiplas camadas treinados com o algoritmo de retropropagação 
tém o potencial para agirem como máquinas computacionais universais. Entretanto, para que este 
potencial seja totalmente aproveitado, temos que superar o problema de escalamento, que aborda a 
questão de quão bem a rede se comporta (p.ex., medido pelo tempo necessário para o treinamento 
ou pelo melhor desempenho de generalização alcançável) quando a tarefa computacional aumenta 
em tamanho e complexidade. Entre as muitas maneiras possíveis de se medir o tamanho ou a com- 
plexidade de uma tarefa computacional, a ordem de predicado, definida por Minsky е Papert (1969, 
1988) fornece a medida mais útil e importante. 

Para esclarecermos o que queremos dizer por um predicado, considere que ЧД) represente 
uma função que pode assumir apenas dois valores. Normalmente, consideramos os dois valores 
como sendo 0 e 1. Mas, considerando os valores como sendo FALSO ou VERDADEIRO, podemos 
pensar em dí A) como um predicado, isto é, uma declaração variável cuja falsidade ou verdade 
depende da escolha do argumento X. Podemos escrever, por exemplo, 


1 se a figura X for um circulo 
Veneno] (4.115) 


se a figura X não for um circulo 
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Usando a idéia de um predicado, Tesauro e Janssens (1988) realizaram um estudo empirico 
envolvendo o uso de um perceptron de múltiplas camadas treinado com o algoritmo de 
retropropagação para aprender a calcular a função de paridade. A função de paridade é um predicado 
booleano definido por 


se | А” [é um número impar 


1 
филь ОО, (4.116) 


caso contrário 


e cuja ordem é igual ao número de entradas. Os experimentos realizados por Tesauro & Janssens 
parecem mostrar que o tempo necessário para a rede aprender a calcular a função de paridade 
aumenta exponencialmente com o número de entradas (i.e., a ordem do predicado da computação), 
e que projeções sobre o uso do algoritmo de retropropagação para aprender funções complicadas 
arbitrárias podem ser excessivamente otimistas. 

Existe a concordância generalizada de que é desaconselhável para um perceptron de múltiplas 
camadas ser totalmente conectado. Neste contexto, podemos levantar a seguinte questão: dado que 
um perceptron de múltiplas camadas não deve ser totalmente conectado, como devem ser alocadas 
as conexões sinápticas da rede? Esta questão não é importante no caso de aplicações em pequena 
escala, mas é certamente crucial para o sucesso da aplicação da aprendizagem por retropropagação 
para resolver problemas em grande escala, do mundo real. 

Um método efetivo de aliviar o problema do escalamento é desenvolver a compreensão do 
problema (possivelmente através de analogia neurobiológica) e usá-la para inserir engenhosidade 
no projeto arquitetura) do perceptron de múltiplas camadas, Especificamente, a arquitetura da rede 
e as restrições impostas aos pesos sinápticos da rede devem ser concebidas de modo a incorporar 
informação prévia sobre a tarefa durante a constituição da rede. Esta estratégia de projeto é ilustrada 
na Seção 4.19 para o problema do reconhecimento de um caractere ótico. 


4.17 ACELERAÇÃO DA CONVERGÊNCIA B 
DA APRENDIZAGEM POR RETROPROPAGAÇÃO 


Na seção anterior, identificamos as principais causas para a possivel taxa lenta de convergência do 
algoritmo de retropropagação. Nesta seção, descrevemos algumas heurísticas que fornecem nor- 
mas úteis para se pensar em como acelerar a convergência da aprendizagem por retropropagação 
através da adaptação da taxa de aprendizagem, Os detalhes das heuristicas são os seguintes (Jacobs, 
1988): 


HEURÍSTICA 1. Cada parâmetro ajustável da função de custo da rede deve ter seu parâmetro 
individual da taxa de aprendizagem. 


Notamos aqui que o algoritmo de retropropagação pode ser lento para convergir porque o uso 
de um parâmetro fixo de taxa de aprendizagem pode nào ser adequado em todas as regiões da 
superficie de erro. Em outras palavras, um parâmetro de taxa de aprendizagem apropriado para o 
ajuste de um determinado peso sináptico não é necessariamente apropriado para o ajuste de outros 
pesos sinápticos da rede. A heuristica 1 reconhece este fato atribuindo um parámetro de taxa de 
aprendizagem diferente para cada peso sináptico (parámetro) ajustável da rede. 


HEURÍSTICA 2. Cada parâmetro da taxa de aprendizagem deve poder variar de uma iteração 
para a seguinte, 
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A superficie de erro tipicamente se comporta de forma diferente ao longo de diferentes regiões de 
uma única dimensão de peso. Para seguir esta variação, a heuristica 2 afirma que o parâmetro de 
taxa de aprendizagem necessita variar de iteração para iteração. É interessante notar que esta heurística 
está bem-fundamentada no caso de unidades lineares (Luo, 1991). 


HEURÍSTICA 3. Quando a derivada da função de custo em relação ao peso sináptico tem o mes- 
mo sinal algébrico para iterações consecutivas do algoritmo, o parámetro da taxa de aprendizagem 
para aquele peso particular deve ser aumentado. 


O ponto de operação corrente no espaço de peso pode se encontrar em uma porção relativa- 
mente plana da superficie de erro ao longo de uma dimensão de peso particular. Por sua vez, isto 
pode ser responsável por fazer com que a derivada da função de custo (i.e., o gradiente da superficie 
de erro) em relação ao peso, mantenha o mesmo sinal algébrico e, assim, aponte na mesma direção, 
para várias iterações consecutivas do algoritmo. A heurística 3 afirma que, nesta situação, o número 
de iterações necessárias para atravessar a porção plana da superficie de erro pode ser reduzida 
aumentando-se adequadamente o parámetro da taxa de aprendizagem. 


HEURÍSTICA 4. Quando o sinal algébrico da derivada da função de custo em relação a um peso 
sináptico particular altema-se para várias iterações consecutivas do algoritmo, o parâmetro da taxa 
de aprendizagem para aquele peso deve ser reduzido. 


Quando o ponto de operação corrente no espaço de pesos se encontra em uma porção da 
superficie de erro ao longo de uma dimensão de peso de interesse que exibe picos e vales (ie, a 
superficie é muito curva), então é possível que a derivada da função de custo em relação áquele peso 
mude o seu sinal algébrico de uma iteração para a seguinte. Para evitar que o ajuste de peso oscile, 
a heuristica 4 afirma que o parâmetro da taxa de aprendizagem para aquele peso particular deve ser 
reduzido adequadamente, 

Note que o uso de um parâmetro da taxa de aprendizagem diferente para cada peso sináptico 
e variável no tempo de acordo com estas heuristicas modifica fundamentalmente o algoritmo de 
retropropagação. Especificamente, o algoritmo modificado não realiza mais uma busca por descida 
mais ingreme. Em vez disso, os ajustes aplicados aos pesos sinápticos são baseados (1) nas deriva- 
das parciais da superficie de erro em relação aos pesos е (2) em estimativas das curvaturas da 
superficie de erro no ponto de operação corrente no espaço de pesos ao longo das várias dimensões 
dos pesos. 

Além disso, as quatro heuristicas satisfazem a restrição de localidade, que é uma caracteristica 
inerente da aprendizagem por retropropagação. Infelizmente, a aderência à restrição de localidade 
limita o dominio da utihdade destas heuristicas porque existem superficies de erro para as quais clas 
não funcionam. Apesar disso, as modificações do algoritmo de retropropagação de acordo com 
estas heuristicas têm valor prático,“ 


4.18 APRENDIZAGEM SUPERVISIONADA VISTA 
COMO UM PROBLEMA DE OTIMIZAÇÃO 


Nesta seção, adotamos um ponto de vista sobre aprendizagem supervisionada que é bem diferente 
daquele seguido nas seções anteriores do capítulo. Especificamente, vemos o treinamento supervi- 
sionado de um perceptron de múltiplas camadas como um problema de orimização numérica. Neste 
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ordem e de ordem mais alta na Eq. (4.117) são zero), o método de Newton converge para a solução 
ótima em uma iteração. Entretanto, a aplicação prática do método de Newton para o treinamento 
supervisionado de um perceptron de múltiplas camadas é prejudicada pelos seguintes fatores: 


+ Requer o cálculo da matriz hessiana inversa H^'(n), o que pode ser computacionalmente cus- 
toso, 

e Para H^'(n) ser computável, Hirn) deve ser não-singular. No caso em que H(4) é definida 
positivamente, a superficie de erro em tomo do ponto corrente w(n) é descrita por uma “de- 
pressão convexa". Infelizmente, não há garantia de que a matriz hessiana da superficie de erro 
de um perceptron de múltiplas camadas sempre se enquadre nesta descrição. Além disso, há o 
problema potencial de a matriz hessiana ser deficiente em posto (i.e., nem todas as colunas de 
H são lincarmente independentes), o que resulta da natureza intrinsecamente mal-condiciona- 
da dos problemas de treinamento de redes neurais (Saarinen et al., 1992); isto só torna mais 
dificil a tarefa computacional, 

* Quando a função de custo É (w) é não-quadrática, não há garantia para a convergência do 
método de Newton, o que o toma inadequado para o treinamento de um perceptron de mülti- 
plas camadas. 


Para superarmos algumas destas dificuldades, podemos usar um método quase-Newton, que requer 
apenas uma estimativa do vetor gradiente g. Esta modificação do método de Newton mantém uma 
estimativa definida positivamente da matriz inversa H^! diretamente, sem inversão matricial. Usan- 
do esta estimativa, assegura-se que um método quase Newton percorre descendentemente a super- 
ficie de erro. Entretanto, ainda temos uma complexidade computacional que € СХ H^), onde Wé o 
tamanho do vetor peso w. Os métodos quase Newton são, portanto, impraticáveis, exceto para o 
treinamento de redes neurais em escala muito pequena. Uma descrição de métodos quase Newton é 
apresentada mais adiante nesta seção. 

Uma outra classe de métodos de otimização de segunda ordem inclui o método do gradiente 
conjugado, que pode ser visto como sendo intermediário, entre o método da descida mais ingreme 
e o método de Newton. O uso do método do gradiente conjugado € motivado pelo desejo de acelerar 
a taxa de convergência tipicamente lenta experimentada com o método da descida mais ingreme, 
enquanto que evita as exigências computacionais associadas com o cálculo, armazenamento e in- 
versão da matriz hessiana, no método de Newton. Entre os métodos de otimização de segunda 
ordem, é amplamente reconhecido que o método do gradiente conjugado talvez seja o único método 
que é aplicável a problemas de grande escala, isto é, problemas com centenas ou milhares de 
parâmetros ajustáveis (Fletcher, 1987). Portanto, é bastante adequado para o treinamento de 
perceptrons de múltiplas camadas, com aplicações típicas que incluem aproximação de funções, 
controle e análise de séries temporais (Le., regressão). 





Método do Gradiente Conjugado 


O metodo do gradiente conjugado pertence à classe dos métodos de otimização de segunda ordem, 
conhecidos coletivamente como métodos de direção conjugado, Começamos a discussão destes 
métodos considerando a minimização da função quadrática 


f(x)» Ax -b’x+c (4.122) 
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onde x é um vetor de parâmetros W-por-1, A é uma matriz W-por-W simétrica, definida positivamen- 
te, b é um vetor H-por-l e c é um escalar. A minimização da função quadrática Ax) é alcançada 
atribuindo-sc a x o valor único 


1*= A'b (4.123) 


Com isso, minimizar (x) e resolver o sistema de equações lineares Ax* = b são problemas equivalentes. 
Dada a matriz A, dizemos que um conjunto de vetores não-nulos s(0), s(1),..., s( H—1) é um conju- 
gado de À (i.e, não interferem entre si no contexto da matriz A) se a seguinte condição for satisfeita: 


s'(n)As(j) = 0 para todo ne j tal quen € j (4.124) 


Se A for igual à matriz identidade, a conjugação é equivalente à noção usual de ortogonalidade. 


EXEMPLO 4.1 


Para uma interpretação de vetores conjugados de A, considere a situação descrita na Fig. 4.24a, relativa à um 
problema bidimensional. A localização elíptica mostrada nesta figura corresponde ao gráfico da Eq. (4.122) 


para 
x = [х.х] 


para um valor constante atribuido à função quadrática f(x). A Figura 4. 24а inclui também um par de vetores de 
direção que são conjugados em relação à matriz A. Suponha que definimos um novo vetor de parámetros v 
relacionado a x pela transformação 


vs Ax 


onde А! é a raiz quadrada de A. Então, a localização elíptica da Fig. 4.24a é transformada em uma localização 
circular, como mostrado na Fig. 4.24b. Correspondentemente, o par de vetores de direção conjugados de A na 
Fig. 4.24a é transformado em um par de vetores de direção ortogonais na Fig, 4.246, 

m 


FIGURA 4.24 Interpretação de 
vetores conjugados de A. (a) 
Localização eliptica no espaço de 
pesos bidimensional, (b) Transtor- 
mação da localização elíptica em 
uma localização circular 





(a) (b) 
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Uma importante propriedade dos vetores conjugados de A é que eles são linearmente indepen- 
dentes. Provamos esta propriedade por contradição, Considere que um desses vetores, digamos 
5(0), seja expresso como uma combinação linear dos W-1 vetores restantes, como segue: 

ШЕ! 
s(0) = Dat sl) 
pal 


Multiplicar por A e então efetuar o produto interno de As(0) com s(0) resulta 


в'(0)Аз(0)= > as" (0)As(7) = 0 


(ml 


Entretanto, é impossivel para a forma quadrática s’(0)As(0) ser zero por duas razões: a matriz А é 
definida positivamente por pressuposição, e o vetor s(0) é não-nulo por definição. Com isso, segue 
que os vetores conjugados de А s(0), s(1),..., s(H—1) não podem ser linearmente dependentes; isto 
€, devem ser linearmente independentes. 

Para um dado conjunto de vetores conjugados de A s(0), s(1),.... s(H—1), o metodo da direção 
conjugada correspondente para minimização irrestrita da função de erro quadrática f(x) é definido 
por (Luenherger, 1973; Fletcher, 1987; Bertsekas, 1995) 


zin + 1)2xn)y* (054), m-0,1.., 6-1 (4.125) 
onde x(0) é um vetor micial arbitrário e rer} é um escalar definido por 
хл) + qins(np = min f(x(n) + түт} (4.126) 


O procedimento para escolha de т de forma a minimizar а função f(x(n) + ms(n)) para um n fixo é 
referido como uma busca em linha, que representa um problema de minimização unidimensional. 
Com base nas Eqs. (4.124), (4.125) e (4.126), podemos agora fazer algumas observações: 


1. Como os vetores conjugados de A s(0), s(1)...., s(H—1) são linearmente independentes, eles 
tormam uma base que cobre o espaço vetorial de w. 

2. A equação de atualização (4.125) e a minimização linear da Eq. (4,126) levam à mesma fórmu- 
la para o parámetro da taxa de aprendizagem, isto €, 

s (n)Ae(m) 

в (Asia) 

onde e(n) é o vetor erro definido por 


тл) = — ñn=0,1,..., F- l] (4.127) 


ein) = x(n) x" (4.128) 


3. Começando de um ponto arbitrário x(0), o método da direção conjugada garante encontrar a 
solução ótima x* da equação quadrática Дх) = 0 no máximo em IF iterações. 


A principal propriedade do método da direção conjugada é descrita como (Luenberger, 1984; Fletcher, 
1987: Bertsekas, 1995): 


Em iterações sucessivas, o método da direção conjugada minimiza a função quadrática ff) sobre 
um espaço vetorial linear progressivamente em expansão, que eventualmente inclui o mínimo local 
de f(x). 
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Em particular, para cada iteração л, o vetor iterativo x(n + 1) minimiza a função fx) sobre um 
espaço vetorial linear ©, que passa através de um ponto arbitrário x(0) e é coberto pelos vetores 
conjugados de А s(0), s(1),..., s(n), como mostrado por 


х(п + l) = arg min f(x) (4.129) 
onde & é definido por 
D= KOG = x(0) + E nono) (4.130) 


Para o método da direção do conjugado funcionar, é necessária a disponibilidade de um conjunto de 
vetores conjugados de А s(0), s(1),..., s(H—1). Em uma forma especial deste método, conhecida 
como método do gradiente conjugado, os vetores de direção sucessivos são gerados como versões 
conjugadas de A dos vetores de gradiente sucessivos da função quadrática Ax), conforme o método 
avança, vindo dai o nome do método. Assim, exceto para n = 0, o conjunto de vetores de direção 
ís(n)] não é especificado previamente, sendo determinado de forma sequencial nos passos sucessi- 
vos do método. 
Definimos o residual como a direção descendente mais ingreme: 


r(n) = b — Aer} (4.131) 
Então, para prosseguirmos, usamos uma combinação linear de r(n) e sn — 1), como mostrado рог 
s(n) = rin) + B(rs(n- 1), n21,2.., W- 1 (4.132) 


onde B(n) é um fator de escala a ser determinado. Multiplicando esta equação por А, efetuando o 
produto interno da expressão resultante com s(# = 1), invocando a propriedade dos vetores de direção 
do conjugado de A e então resolvendo a expressão resultante para fr), obtemos 


s (n — DAr(n) 


а s' (n — L)As(n — 1} 


(4.133) 


Usando as Eqs. (4.132) e (4.133), constatamos que os vetores s(0), s(1),..., s(H—1) assim gerados 
são de fato conjugados de A. 

A geração dos vetores de direção de acordo com a equação recursiva (4.132) depende do 
coeficiente Pin). A fórmula da Eq. (4.133) para calcular Bir), como está atualmente escrita, requer 
o conhecimento da matriz A. Por razões computacionais, seria desejável calcular Pr} sem o conhe- 
cimento explícito de A. Este cálculo pode ser obtido usando-se uma das duas fórmulas seguintes 
(Fletcher, 1987): 


1. Fórmula de Polak-Ribiére, para a qual Pin) é definido por 


(туен) = r(n — 1)) 


EEP 


(4.134) 


2. Fórmula de Fletcher-Reeves, para a qual Pin) é definido por 
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е (nri) 
Pla) = г'(п—1)г(л—1) кзз 
Para usarmos o método do gradiente conjugado para atacar a minimização irrestrita da função de 
custo É (w), relativa ao treinamento supervisionado de perceptrons de múltiplas camadas, faze- 


mos duas coisas: 


* Aproximamos a função de custo É (м) por uma função quadrática. Isto é, os termos de 
terceira ordem e de ordem mais alta na Eq. (4.117) são ignorados, o que significa que estamos 
operando próximos a um minimo local da superficie de erro. Assim, comparando as Eqs. 
(4.117) e (4.122), podemos fazer as associações indicadas na Tabela 4.7. 


TABELA 4,7 Correspondância entre Ax) e €... (w) 

Função quadrática f(x) Função de custo É (ме) 
Vetor de parámetros хел) Vetor peso sináptico wm) 
Vetor gradiente df (x dx Vetor gradiente р = TE / Jw 
Matriz A Matriz hessiana H 


+ Formulamos a computação dos coeficientes Pir) e n(a) no algoritmo do gradiente conjugado 
de modo a necessitar apenas da informação do gradiente. 


O último ponto é particularmente importante no contexto de perceptrons de múltiplas camadas, 
porque evita o uso da matriz hessiana H(n), cujo cálculo envolve dificuldades computacionais. 


Para calcularmos o coeficiente (т) que determina a direção de busca s(n) sem conhecimento 
explicito da matriz hessiana H(n), podemos usar a fórmula de Polak-Ribiére da Eq. (4.134) ou a 
fórmula de Fletcher-Reeves da Eq. (4.135). Ambas as fórmulas envolvem apenas o uso de residuais. 
Na forma linear do método do gradiente conjugado, assumindo uma função quadrática, as fórmulas 
de Polak-Ribiére e de Fletcher-Reeves são equivalentes. Por outro lado, no caso de uma função de 
custo não-quadrática, elas não são mais equivalentes. 

Para problemas de otimização não-quadráticos, a forma de Polak-Ribiére do algoritmo do 
gradiente conjugado é tipicamente superior à forma de Fletcher-Reeves deste algoritmo, para o que 
damos a seguinte explicação heurística (Bertsekas, 1995). Devido à presença de termos de terceira 
ordem e de ordem mais alta na função de custo É м) ca possíveis imprecisões na busca em linha, 
a conjugação das direções de busca geradas é perdida progressivamente. Por sua vez, isto pode 
causar a “obstrução” do algoritmo, no sentido de que o vetor de direção gerado sin} é aproximada- 
mente ortogonal ao residual r(n). Quando este fenómeno ocorre, temos que r(n) ^ ría — 1), e neste 
caso o escalar (т) será aproximadamente zero. Correspondentemente, o vetor de direção s(n) será 
próximo a r(n), desfazendo assim a obstrução. Diferentemente, quando a fórmula de Fletcher-Reeves 
é usada, o algoritmo do gradiente conjugado tipicamente continua obstruido sob condições simila- 
res. 

Em casos raros, entretanto, o método de Polak-Ribiére pode rodar indefinidamente sem con- 
vergir. Felizmente, a convergência do método de Polak-Ribiére pode ser assegurada escolhendo-se 
(Shewchuk, 1994) 
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В = max (BO) (4.136) 


onde B, é о valor definido pela fórmula de Polak-Ribiére da Eq. (4.134). Usar o valor de B definido 
na Eq. (4.136) é equivalente a recomeçar o algoritmo do gradiente conjugado se В. < 0. Recomeçar 
o algoritmo é equivalente a esquecer a última direção de busca e começar novamente na direção da 
descida mais ingreme (Shewchuk, 1994). 

Considere a seguir a questão do cálculo de тл), que determina а taxa de aprendizagem do 
algoritmo do gradiente conjugado, Como no caso de Din), o método preferível para calcular (лт) é 
aquele que evita utilizar a matriz hessiana H(n). Lembramos aqui que a minimização linear baseada 
na Eq. (4.126) leva à mesma fórmula para (т) como aquela derivada da equação de atualização 
(4.125). Portanto, precisamos de uma busca em linha," cujo propósito é minimizar a função É (м 
+ тї) em relação a 1]. Isto é, dados valores fixos dos vetores we s, o problema é variar 1 de forma 
a minimizar esta função. Conforme rj varia, o argumento w + ms traça uma linha no espaço vetorial 
de dimensão W de w, por isso o nome “busca em linha”, Um algoritmo de busca em linha é um 
procedimento iterativo que gera uma sequência de estimativas (n(1)) para cada iteração do algoritmo 
do gradiente conjugado. A busca em linha termina quando uma solução satisfatória é encontrada, 
Deve ser realizada uma busca em linha ao longo de cada direção de busca. 

Vários algoritmos de busca em linha foram propostos na literatura, e é importante sc fazer uma 
boa escolha porque ele tem um impacto profundo sobre o desempenho do algoritmo do gradiente 
conjugado no qual está inserido. Qualquer algoritmo de busca em linha opera em duas fases (Fletcher, 
1987): 


«+ Fase de segmentação, que procura por um segmento, isto é, um intervalo náo-trivial que con- 
tém um minimo. 

+ Fase de secionamento, na qual o segmento é secionado (i.e., dividido), gerando assim uma 
sequência de segmentos cujo comprimento é progressivamente reduzido. 


Descrevemos agora um procedimento de ajuste de curva que considera estas duas fases de uma 
forma direta. 

Considere que É, (n) represente a função de custo do perceptron de múltiplas camadas, ex- 
pressa como uma função de T]. Assume-se que € (т) seja estritamente unimodal (Le., tem um 
único minimo na vizinhança do ponto corrente w(n)) e é duas vezes continuamente diferenciável. 
Iniciamos o procedimento de busca procurando ao longo da linha até encontrarmos três pontos Tj. 
n, em, tal que a seguinte condição seja satisfeita: 


E (n)2 6, (m)2$, (n) раат, «n,«n, (4.137) 


como ilustrado na Fig. 4.25. Como © „m é uma função continua de Tj, а escolha descrita na Eq. 
(4.137) assegura que o segmento [N , 1),] contém um mínimo da função & ‚(n}. Desde que a função 
€ UV seja suficientemente suave, podemos considerar que esta função seja parabólica na vizi- 
nhança imediata do minimo. Correspondentemente, podemos utilizar a interpolação parabólica 
inversa para realizar o secionamento (Press et al., 1988). Especificamente, uma função parabólica é 
ajustada através dos três pontos originais ту, T], eT),, como ilustrado na Fig. 4.26, onde a linha sólida 
corresponde a €, (T) e a linha tracejada corresponde à primeira iteração do procedimento de 
secionamento. Considere que o mínimo da parábola passando pelos três pontos 1. 1], e n, seja 
representado por nj, No exemplo ilustrado na Fig. 4.26, temos LEFUN < © AT e E П) < 
E cl). O ponto п, é substituido por n,, fazendo com que [n , n,] seja o novo segmento. O proces- 
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so é repetido construindo-se uma nova parábola através dos pontos Т], 1], en, O procedimento de 
segmentação seguida de seciónamento, como ilustrado, é repetido varias vezes até que um ponto 
suficientemente próximo ao minimo de & (n) seja localizado, quando então a busca em linha é 
terminada. 

O metodo de Brent constitui uma versão muito refinada do procedimento de ajuste de curva 
por três pontos aqui descrito (Press et al., 1988). Em qualquer estágio particular da computação, o 
método de Brent segue seis pontos da função € UM. que nào necessariamente precisam ser todos 
distintos. Como anteriormente, tenta-se aplicar a interpolação parabólica através destes pontos. 
Para que a interpolação seja aceitável, certo critério envolvendo os três pontos restantes deve ser 
satisfeito. Obtém-se como resultado um algoritmo de busca em linha robusto. 


Resumo do Algoritmo do Gradiente Conjugado Não-Linear 


Todos os ingredientes de que necessitamos para descrever formalmente a forma não-linear (não- 
quadrática) do algoritmo do gradiente conjugado para a aprendizagem supervisionada de um 


perceptron de múltiplas camadas estão agora definidos, Um resumo do algoritmo é apresentado na 
Tabela 4.8. 
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TABELA 4.8 Resumo do Algoritmo do Gradiente Conjugado Näo-Linear para o Treinamento de um 
Perceptron de Múltiplas Camadas 


Inicialização 
A menos que esteja disponivel conhecimento prévio sobre o vetor peso w, escolha o valor inicial w(0) usando um 
procedimento similar àquele descrito para o algoritmo de retropropagação. 


Computação 

1. Рага w(0), use retropropagação para calcular о vetor gradiente g(0). 

2. Faça s(0) = r(0) = -g(0). 

3. No instante de tempo п, use uma busca em linha para encontrar тут) que minimiza suficientemente € (mn), 
representando a função de custo E... expressa como uma função de тү para valores fixos de w e s. 

4. Teste para determinar se а norma euclidiana do residual гїп} caiu abaixo de um valor especificada, isto é, uma 
fração do valor inicial (00. 

5. Atualize o vetor peso: 


win + 1) = win) + irsin) 


6, Para win + 1), use retropropagação para calcular o vetor gradiente atualizado ріп + 1). 
Faça rin + 1) = -gin + 1). 
8. Use o método de Polak-Ribiére para calcular Bin + 1): 


3 r'(n- Drin + l- riny 
Bin + nz mee) FUE De D rn o 


mi 


9. Atualize o vetor de direção: 
sn + D» rint 1)+ Bist Ds) 
10.Faga п = п + 1 e volte para o passo 3. 
Critério de parada. Encerre o algoritmo quando a seguinte condição for satisfeita: 
rial Ze СОЗИ 


onde e é um número pequeno predeterminado. 





Métodos Quase Newton 


Resumindo a discussão sobre métodos quase Newton, constatamos que eles são basicamente méto- 
dos de gradiente descritos pela equação de atualização: 


win 1) = win) + n(n)s(n) (4.138) 
onde o vetor de direção s(1) é definido em termos do vetor gradiente рл) por 
s(n)- —-Sín)gin) (4.139) 


A matriz S(n) é uma matriz definida positivamente que é ajustada de uma iteração para a seguinte. 
Isto é feito de modo que o vetor de direção s(n) aproxime a direção de Newton, ou seja 
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! dw) 


med ' 


(DE Jow) (9€ 


Os métodos quase-Newton utilizam informação de segunda ordem (curvatura) acerca da su- 
perficie de erro, sem realmente requerer conhecimento da matriz hessiana H. Eles conseguem fazer 
isto utilizando dois vetores iterativos sucessivos w(n) e win + 1), juntamente com os respectivos 
vetores de gradiente gin) e gía + 1). Considere que 


quí = gía + 1) — gía) (4.140) 


Awin) = win + 1) — wm) (4.141) 


Podemos então derivar a informação de curvatura usando a fórmula aproximada: 


a 
qn (55, gn wt) (4.142) 


Em particular, dado IF incrementos de peso linearmente independentes Aw(0), Awil}... ^w(H—1) 


eos respectivos incrementos de gradiente q(0), q(1)..... q( H—1), podemos aproximar a matriz hessiana 
H como: 


Н = [ 90). q(1)..... q(H—1)] [Aw(0), Aw(1)...., Aw(W—1)] (4.143) 


Podemos também aproximar a matriz hessiana inversa como: 


H^! = [Aw(0), Awil)... Aw(H—1)] 1960), gel)... HD (4.144) 


Quando a função de custo E dw) é quadrática, as Eqs. (4.143) e (4.144) são exatas, 
Na classe mais popular de métodos quase Newton, a matriz S(n + 1) é obtida a partir do seu 
valor prévio S(n) e dos vetores Aw(n) e (л), utilizando a recursão (Fletcher, 1987; Bertsekas, 


1993): 


(л + 1) = Sp) 290049 (9) _ 8(т)ф(л)ч (SQ 
q (mal) q Saal) (4.145) 


+ El n DEMOS nq n IKON "in ) 


onde 


L Awa) Sida) 
bl res mr q Stma (4.146) 


Osl para todo m (4.147) 


O algoritmo é iniciado com uma matriz definida positivamente arbitrária 5(0). A forma particular 
do método quase Newton é parametrizada de acordo com a definição de nn), como indicado a 
seguir (Fletcher, 1987): 
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* Para (м) = О para todo n, obtemos o algoritmo de Davidon — Fletcher — Powell (DEP), que é 
historicamente o primeiro algoritmo quase-Newton. 

e Para &(n) = | para todo п, obtemos o algoritmo Broyden — Fletcher = Goldfarb — Shanno, que 
é considerado a melhor forma de método quase-Newton, conhecida atualmente. 


Comparação entre os Métodos Quase-Newton 
e os Métodos do Gradiente Conjugado 


Concluimos esta breve discussão dos métodos quase-Newton comparando-os com métodos do gra- 
diente conjugado, no contexto dos problemas de otimizagáo náo-quadráticos (Bertsekas, 1995): 


* Tanto os métodos quase-Newton como os métodos do gradiente conjugado evitam a necessi- 
dade de se usar a matriz hessiana. Entretanto, os métodos quase-Newton váo um passo adiante 
gerando uma aproximação para a matriz hessiana inversa, Correspondentemente, quando a 
busca em linha é precisa e estamos próximos de um minimo local com uma hessiana definida 
positivamente, um método quase-Newton tende a aproximar o método de Newton, alcangando 
com isso uma convergência mais rápida do que sena possível com o método do gradiente 
conjugado, 

= Os métodos quase-Newton não são tão sensíveis à precisão no estágio da busca em linha da 
otimização quanto o método do gradiente conjugado. 

e Os métodos quase-Newton requerem armazenamento da matriz S(n), além do custo da multi- 
plicação matriz-vetor associado com a computação do vetor de direção s(n). O resultado disso 
é que a complexidade computacional dos métodos quase-Newton é CNH). Diferentemente, а 
complexidade computacional do método do gradiente conjugado é O(W). Assim, quando a 
dimensão W (Le. o tamanho do vetor peso w) é grande, os métodos do gradiente conjugado 
são preferiveis aos métodos quase-Newton em termos computacionais. 


É por causa deste último ponto que o uso de métodos quase-Newton é restrito, na prática, ao projeto 
de redes neurais de pequena escala, 


4.19 REDES CONVOLUTIVAS 


Até este ponto, estivemos preocupados com o projeto algoritmico de perceptrons de múltiplas ca- 
madas e com questões relacionadas. Nesta seção, enfocamos a planta estrutural do perceptron de 
múltiplas camadas propriamente dita. Em particular, descrevemos uma classe especial de perceptrons 
de múltiplas camadas conhecidas coletivamente como redes convolutivas; a idéia por trás destas 
redes foi apresentada brevemente no Capítulo 1. 

Uma rede convolutiva é um perceptron de múltiplas camadas projetado especificamente para 
reconhecer formas bidimensionais com um alto grau de invariáncia quanto a translação, escalamento, 
inclinação e outras formas de distorção. Esta dificil tarefa é aprendida de uma forma supervisionada 
por meio de uma rede cuja estrutura inclui as seguintes formas de restrições (LeCun e Bengio, 
1995): 


1. Extração de caracteristicas. Cada neurônio recebe seus sinais de entrada de um campo recep- 
tivo local na camada anterior, o que o força a extrair caracteristicas locais. Uma vez que uma carac- 
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terística seja extraida, sua localização exata se torna menos importante desde que a sua posição em 
relação a outras caracteristicas seja aproximadamente preservada. 

2. Mapeamento de caracteristicas. Cada camada computacional da rede é composta de múlti- 
plos mapas de caracteristicas, sendo cada mapa de características na forma de um plano dentro do 
qual os neurônios individuais estão restritos a compartilhar o mesmo conjunto de pesos sinápticos. 
Esta segunda forma de restrição estrutural tem os seguintes efeitos benéficos: 


«+ Invariância a deslocamento, introduzida na operação de um mapa de caracteristicas através 
do uso de convolução com um núcleo (kernel) de pequeno tamanho, seguido por uma função 
sigmoide (limitadora). 

* Redução do número de parâmetros livres, obtida através do uso de compartilhamento de pe- 
sos. 


3. Subamostragem. Cada camada convolutiva é seguida por uma camada computacional que 
calcula a média local e realiza uma subamostragem, reduzindo desta forma a resolução do mapa de 
caracteristicas. Esta operação tem o efeito de reduzir a sensibilidade da saida do mapa de caracteris- 
ticas em relação a deslocamentos e outras formas de distorção. 


O desenvolvimento de redes convolutivas, como descrito acima, tem motivação neurobiológica, 
com origem no trabalho pioneiro de Hubel e Wiesel (1962, 1977) sobre sensibilidade local c neurônios 
seletivos à orientação no córtex visual de um gato. 

Enfatizamos que todos os pesos em todas as camadas de uma rede convolutiva são aprendidos 
por treinamento. Além disso, a rede aprende a extrair suas próprias caracteristicas automaticamen- 
te. 

A Figura 4.27 mostra a planta arquitetural por uma rede convolutiva constituída de uma cama- 
da de entrada, quatro camadas ocultas e uma camada de saida. Esta rede é projetada para realizar 
processamento de imagens (p.ex., reconhecimento de caracteres manuscritos). À camada de entra- 
da, constituída de 28 x 28 nós sensoriais, recebe a imagem de diferentes caracteres que foram 
aproximadamente centrados e normalizados em tamanho. Depois disso, as plantas computacionais 
se alternam entre convolução e subamostragem, como aqui descrito: 


Mapas de Mapas de Mapas de Mapas de R 
ENTRADA caracteristicas caracteristicas caracteristicas caracteristicas БАША 
28 x 28 4da24x 24 4а 12 х 12 l2a8x8 lladxd Ja 1x1 





FIGURA 4.27 Rede convolutiva para o processamento de imagem como, por exemplo, o reconhecimento 
de caracteres manuscritos. (Reproduzido com permissão de MIT Press) 


* À primeira camada oculta realiza convolução. Consiste de quatro mapas de caracteristicas, 
com cada mapa consistindo de 24 x 24 neurônios. À cada neurônio é atribuído um campo 
receptivo de tamanho 5 x 5. 
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• A segunda camada oculta realiza subamostragem e calcula а média local. Consiste também de 
quatro mapas de caracteristicas, mas cada mapa é constituido agora de 12 x 12 neurónios. 
Cada neurónio tem um campo receptivo de tamanho 2 x 2, um coeficiente treinável, um bias 
treinável e uma função de ativação sigmóide. O coeficiente treinável e o bias controlam o 
ponto de operação do neurônio; por exemplo, se o coeficiente é pequeno, o neurônio opera em 
um modo quase linear. 

e А terceira camada oculta realiza uma segunda convolução, Consiste de 12 mapas de caracte- 
risticas, com cada mapa consistindo de 8 x 8 neurônios. Cada neurônio nesta camada oculta 
pode ter conexões sinápticas com vários mapas de caracteristicas da camada oculta anteceden- 
te. De resto, ela opera de forma similar à primeira camada convolutiva. 

* A quarta camada oculta realiza uma segunda subamostragem e cálculo da média local. Con- 
siste de 12 mapas de caracteristicas, mas cada mapa consiste de 4 x 4 neurônios. De resto, 
opera de forma similar à primcira camada de subamostragem. 

e A camada de saída realiza um estágio final de convolução. Consiste de 26 neurônios, sendo 
que a cada neurônio é atribuido um caracter de 26 caracteres possíveis. Como anteriormente, 
a cada neurônio é atribuido um campo receptivo de tamanho 4 х 4, 


Com as camadas computacionais sucessivas se alterando entre convolução e subamostragem, obte- 
mos um efeito “bipiramidal”. Isto é, em cada camada convolutiva ou de subamostragem, o número 
de mapas de caracteristicas é aumentado, enquanto que a resolução espacial é reduzida quando 
comparada com a camada antecedente, A idéia de convolução seguida de subamostragem é inspira- 
da pela noção de células “simples” seguidas de células “complexas” que foi descrita pela primeira 
vez por Hubel e Wiesel (1962). 

O perceptron de mültiplas camadas descrito na Fig. 4.27 contém aproximadamente 100.000 
conexões sinápticas, mas apenas cerca de 2600 parâmetros livres. Esta dramática redução do nüme- 
ro de parámetros livres é obtida pelo uso de compartilhamento de pesos. A capacidade da máquina 
de aprendizagem (medida em termos da dimensão V-C) é, desta forma, reduzida, o que por sua vez 
melhora a sua habilidade de generalização (LeCun, 1989). O que é ainda mais notável É que os 
ajustes dos parâmetros livres são feitos a partir da forma estocástica (sequencial) da aprendizagem 
por retropropagacio, 

Um outro ponto importante é que o uso de compartilhamento de pesos torna possível a 
implementação da rede convolutiva de forma paralela. Esta é uma outra vantagem da rede convolutiva 
sobre um perceptron de múltiplas camadas totalmente conectado. 

A lição a aprender da rede convolutiva da Fig. 4,27 tem dois aspectos. Primeiro, um perceptron 
de múltiplas camadas de tamanho manejävel é capaz de aprender um mapeamento não-linear com- 
plexo, de alta dimensionalidade, restringindo seu projeto através da incorporação de conhecimento 
prévio sobre a tarefa considerada, Segundo, os pesos sinápticos e níveis de bias podem ser aprendi- 
dos circulando-se o algoritmo de retropropagação através do conjunto de treinamento. 


4.20 RESUMO E DISCUSSÃO 


A aprendizagem por retropropagação emergiu como o algoritmo padrão para o treinamento de 
perceptrons de múltiplas camadas, com o qual outros algoritmos de aprendizagem são comparados. 
O algoritmo de retropropagação deriva seu nome do fato de que as derivadas parciais da função de 
custo (medida de desempenho) em relação aos parâmetros livres (pesos sinápticos e níveis de bias) 
da rede são determinados por retropropagação dos sinais de erro (calculados pelos neurônios de 
saida) através da rede, camada por camada. Fazendo isso, ele resolve o problema de atribuição de 
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crédito de uma forma muito elegante. A força computacional do algoritmo advém dos seus dois 
principais atributos: 


e Utiliza um método focal para atualizar os pesos sinápticos e níveis de bias do perceptron de 
múltiplas camadas. 

es Emprega um método eficiente para calcular todas as derivadas parciais da função de custo em 
relação a estes parâmetros livres. 


Para uma determinada época de dados de treinamento, o algoritmo de retropropagação opera em 
um modo dentre dois modos possíveis: sequencial ou por lote. No modo sequencial, os pesos 
sinápticos de todos os neurônios da rede são ajustados para cada padrão. Conseqüentemente, a 
estimativa do vetor gradiente da superficie de erro usado na computação é de natureza estocástica 
(aleatória), por isso o nome “retropropagação estocástica”, que é também usado para denominar o 
modo sequencial da aprendizagem por retropropagação. Por outro lado, no modo por lote, os ajus- 
tes de todos os pesos sinápticos e níveis de bias são feitos para cada época, resultando que uma 
estimativa mais precisa do vetor gradiente é usada na computação. Apesar das suas desvantagens, à 
forma sequencial (estocástica) da aprendizagem por retropropagação é a mais frequentemente utili- 
zada para projetar redes neurais, particularmente em grandes problemas. Para alcançar melhores 
resultados, é necessária uma sintonia cuidadosa do algoritmo, 

Os detalhes especificos envolvidos no projeto de um perceptron de múltiplas camadas depen- 
de naturalmente da aplicação de interesse, Podemos, entretanto, fazer duas distinções: 


1. NMa classificagäo de padrões envolvendo padrões não lincarmente separáveis, todos os neurônios 
da rede são ndo-lineares. A nào-linearidade é obtida pelo uso de uma função sigmóide, cujas duas 
formas tipicamente utilizadas são (a) a função logistica, nào-simétrica e (b) a função tangente 
hiperbólica, anti-simétrica. Cada neurônio é responsável por produzir um hiperplano particular no 
espaço de decisão. Através de um processo de aprendizagem supervisionada, a combinação dos 
hiperplanos formados por todos os neurônios da rede é ajustada iterativamente de modo a separar os 
padrões retirados de classes diferentes e não vistos anteriormente, com o menor número de erros de 
classificação, em média. Para a classificação de padrões, o algoritmo de retropropagação estocástico 
é o algoritmo mais amplamente utilizado para realizar o treinamento, particularmente em grandes 
problemas (p.ex., reconhecimento de caracteres óticos). 

2. Na regressão linear, o intervalo de saida do perceptron de múltiplas camadas deve ser suficien- 
temente grande para conter os valores do processo; se esta informação não estiver disponível, então 
o mais razoável é a utilização de neurônios lineares, Como no caso dos algoritmos de aprendiza- 
gem, fazemos as seguintes observações: 


e O modo sequencial (estocástico) da aprendizagem por retropropagação é muito mais lento que 
o modo por lote. 

* O modo por lote da aprendizagem por retropropagação é mais lento que o método do gradiente 
conjugado, Note, entretanto, que o último método pode apenas ser utilizado no modo por lote. 


Concluimos esta discussão com algumas observações finais sobre medidas de desempenho. A deri- 
vação do algoritmo de retropropagação apresentada neste capítulo está baseada na minimização da 
função de custo É | definida, de uma forma ou de outra, como a média sobre o conjunto de treina- 
mento inteiro da soma de erros quadrados. À mais importante virtude deste critério é a sua genera- 
lidade е maneabilidade matemática. Entretanto, em muitas situações encontradas na prática, 
minimizar a função de custo É | corresponde a otimizar uma quantidade intermediária que não é o 
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objetivo último do sistema е que, por isso, pode levar a um desempenho abaixo do ótimo. Em 
sistemas comerciais para o mercado de capitais, por exemplo, o objetivo principal do investidor ou 
de um negociante é maximizar o retorno esperado com risco minimo (Choey e Weigend, 1996; 
Moody e Wu, 1996), A razdo Sharpe ou razão de recompensa por volatilidade como uma medida 
de desempenho do retorno ajustado a risco é intuitivamente mais atraente que @ u 


NOTAS E REFERÊNCIAS 


2. 


As funções sigmóides são chamadas assim porque seus gráficos apresentam a forma de 

"s". Menon et al. (1996) apresentam um estudo detalhado de duas classes de sigmóides: 

+ Siemóides simples, definidas como sendo funções de uma variável, impares, limitadas 
assintoticamente e completamente monótonas, 

+ Sigmóides hiperbólicas, representando um subconjunto adequado de sigmóides sim- 
ples e uma generalização natural da função tangente hiperbólica. 

Para o caso especial do algoritmo LMS, foi mostrado que o uso da constante de momento 
a reduz o intervalo estável do parámetro da taxa de aprendizagem тү e pode levar à 
instabilidade se y não for ajustado adequadamente, Além disso, o desajuste aumenta 
com o aumento de cr; para detalhes, veja Roy é Shynk (1990). 

Para uma derivação do algoritmo de retropropagação incluindo a constante de momento 
nos seus princípios básicos, veja Hagiwara (1992). 

Diz-se que um vetor w* é um minimo local de uma função de entrada-saida F se ele nào 
for pior que seus vizinhos, isto é, se existir um Е tal que (Bertsekas, 1995) 


Fiw*)< F(w) para todo w com |w —w* | < е 


Diz-se que o vetor w* é um minimo global da função F se ele não for pior que todos os 
outros vetores, isto é, 


F(w*)z Fiw) para todo we R^ 


onde n é a dimensão de w, 

A primeira descrição documentada do uso de retropropagação para o cálculo eficiente do 
gradiente foi apresentada por Werbos (1974). O material apresentado na Seção 4.10 
segue o tratamento dado em Saarinen et al. (1992); uma discussão mais geral deste 
tópico é apresentada por Werbos ( 1990). 

Outros aspectos do projeto de redes neurais que se beneficiam do conhecimento da matriz 

hessiana incluem (Bishop, 1995): 

(1) A hessiana forma a base de um procedimento para o retreinamento de um perceptron 
de múltiplas camadas após ter sido realizada uma pequena mudança nos dados de 
treinamento. 

(2) No contexto da aprendizagem bayestana, 

“a inversa da matriz hessiana pode ser usada para atribuir bandas de erro à predição 
não-linear feita por uma rede neural treinada, e 

*  osautovalores da matriz hessiana podem ser usados para determinar valores adequa- 
dos para os parâmetros de regularização. 

Buntine e Weigend (1994) apresentam uma revisão sobre algoritmos exatos e aproxima- 

dos para calcular a matriz hessiana, com referência particular às redes neurais; veja tam- 

bém o artigo de Battiti (1992). 

O teorema da aproximação universal pode ser visto como uma extensão natural do Teorema 

de Weierstrass (Weierstrass, 1885). Este teorema afirma que qualquer função continua 
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10. 


sobre um intervalo fechado no eixo real pode ser expressa naquele intervalo como uma 
série de polinômios absolutamente e uniformemente convergente. 

O interesse na pesquisa sobre as virtudes dos perceptrons de múltiplas camadas como 
dispositivos para a representação de funções continuas arbitrárias talvez tenha sido pri- 
meiramente colocado no centro das atenções por Hecht-Nielsen (1987), que invocou uma 
versão melhorada por Sprecher (1965) do teorema da superposição de Kolomogorov. Mais 
tarde, Gallant e White (1988) mostraram que um perceptron de múltiplas camadas com 
uma única camada oculta com limitação monótona "co-senoidal" na camada oculta e sem 
limitação na saida se enquadra como um caso especial de uma "rede de Fourier" que 
produz como sua saida uma aproximação por série de Fourier para uma dada função. 
Entretanto, no contexto dos perceptrons de múltiplas camadas tradicionais, foi Cybenko 
quem demonstrou rigorosamente, pela primeira vez, que uma única camada oculia é sufi- 
ciente para aproximar uniformemente qualquer função continua com suporte em um 
hipercubo unitário; este trabalho foi publicado como um Relatório Técnico da University 
of Illinois em 1988, e republicado como um artigo um ano depois (Cybenko, 1988, 1989), 
Em 1989, dois outros artigos foram publicados independentemente sobre perceptrons de 
múltiplas camadas como aproximadores universais, um por Funahashi е o outro por Horik, 
Stinchcombe e White. Para contribuições subsequentes sobre o problema de aproximação, 
veja Light (1992h). 

A história do desenvolvimento da validação cruzada está documentada em Stone (1974). 
A idéia da validação cruzada tem estado presente pelo menos desde os anos 30, mas um 
refinamento da técnica foi realizado nos anos 60 e 70. Dois artigos importantes daquela 
era são Stone (1974) e Geisser (1975), que a propuseram independentemente e quase si- 
multaneamente, A técnica foi denominada “método de validação cruzada” por Stone € 
“método de reutilização previsível de amostras” por Geisser. 

As referências mais antigas sobre métodos de treinamento de parada antecipada incluem 
Morgan é Bourlard (1990) e Weigend et al. (1990), Talvez a análise estatistica mais deta- 
lhada do método de parada antecipada para perceptrons de múltiplas camadas esteja apre- 
sentada em Amari et al. (19968). O estudo é sustentado por simulações computacionais de 
um classificador 8-8-4 com 108 parâmetros ajustáveis e um conjunto de dados muito gran- 
de (50.000 exemplos). 

A arquitetura de aprendizagem por correlação em cascata (Fahlman e Lebiere, 1990) é 
um exemplo da abordagem de crescimento de rede. O procedimento começa com uma 
rede minima que tem alguns nås de entradas e um ou mais nós de saída, como indicado 
pelas considerações de entrada/saida, mas não possui nós ocultos. O algoritmo LMS, por 
exemplo, pode ser usado para treinar a rede, Os neurônios ocultos são adicionados à rede, 
um por um, obtendo desta forma uma estrutura de múltiplas camadas. Cada novo neurônio 
oculto recebe uma conexão sináptica de cada um dos nós de entrada e também de cada 
neurônio oculto já existente. Quando um novo neurônio oculto é adicionado, os pesos 
sinápticos do lado da entrada daquele neurônio são congelados; apenas os pesos sinápticos 
no lado da saída são treinados repetidamente. O neurônio oculto adicionado então se torna 
um detector de caracteristicas permanente da rede. O procedimento de adicionar novos 
neurônios ocultos é continuado da maneira descrita, até que se obtenha um desempenho 
satisfatório. 

Em uma outra abordagem de crescimento de rede descrita em Lee et al. (1990), um 
terceiro nivel computacional, denominado adaptação a nivel estrutural, é acrescentado ao 
passo de propagação (adaptação a nível funcional) e ao passo de retropropagação (adapta- 
ção a nivel paramétrico). Neste terceiro nivel computacional, a estrutura da rede é adapta- 
da modificando-se o número de nevrônios e a relação estrutural entre os neurônios da rede. 
O critério usado é que, quando o erro estimativo (após a convergência) for maior que um 
valor desejado, um novo neurônio é adicionado à rede em uma posição onde ele seja mais 
necessário. À posição descjada para o novo neurônio é determinada monitorando-se o 
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Aprendizagem por retropropagação 


d.å 


4.4 


4.5 


4.6 


4.7 


A inclusão de um termo de momento na atualização dos pesos pode ser vista como um 
mecanismo para satisfazer as heuristicas 3 e 4, que fornecem normas para acelerar à con- 
vergéncia do algoritmo de retropropagação, o que foi discutido na Seção 4. 17. Demonstre 
a validade desta afirmação. 

Atribui-se, normalmente, à constante de momento єх um valor positivo no intervalo Q = ca 
< 1. Investigue a diferença que faria no comportamento da Eq. (4.41) em relação ao tempo 
t, se fosse atribuido a & um valor negativo no intervalo —] < à 5 0. 

Considere o exemplo simples de uma rede envolvendo um único peso, para a qual a função 
de custo é 


(uw) = k(w wk, 


onde ы, k e k, são constantes. Usa-se um algoritmo de retropropagação para minimizar 
Blu}. 

Explore o modo como a inclusão da constante de momento & influencia o processo de 
aprendizagem, com referência particular ao número de épocas necessárias para a conver- 
gência em função de a. 

Na Seção 4.7, apresentamos argumentos qualitativos para a propriedade de um classifica- 
dor por perceptron de múltiplas camadas (usando uma função logística como a não- 
linearidade) de que as suas saídas fornecem estimativas das probabilidades de classe a 
posteriori. Esta propriedade assume que o tamanho do conjunto de treinamento é suficien- 
temente grande e que o algoritmo por retropropagação usado para treinar a rede não fica 
preso em um minimo local. Complete os detalhes matemáticos desta propredade, 
Começando com a função de custo definida na Eq. (4.70), derive a solução que minimiza 
a Eq. (4.72) e o valor mínimo da função de custo defimda na Eq. (4.73). 

As Equações de (4.81) a (4.83) definem as derivadas parciais da função aproximativa 
F(w,x) realizada pelo perceptron de múltiplas camadas da Fig. 4.18. Derive estas equações 
a partir do seguinte cenário: 


(a) Função de custo: 


Ein) = ld - F(w,x)| 


sedes 


onde w, é um peso sináptico do neurônio i para o neurônio fe y, € a saída do neurônio i; 
(c) Ndo-linearidade: 


(b) Saida do neurônio j 


1 
- 1+ехр({-һ) 


ple) 


Validação cruzada 


4.9 


4,10 


Pode ser argumentado que a validação cruzada é um estudo de caso da minimização estru- 
tural de risco que é discutida no Capítulo 2. Descreva um exemplo de rede neural utilizan- 
do validação cruzada que sustente este argumento. 

Na validação cruzada múltipla, não há uma separação clara entre os dados de treinamento 
e os dados de teste (validação), como no caso do método de resistência. É possível que a 
validação cruzada múltipla produza uma estimativa tendenciosa? Justifique a sua resposta. 


280 Eros Neurais 


Técnicas de poda da rede 


4.11 


4.12 


Os critérios estatísticos para seleção de modelo, como o critério do minimo comprimento 
de descrição (MCD) de Rissanen e um criterio teórico da informação (CTI) de Akaike, 
compartilham uma forma comum de composição: 


Critério por complexidade” _ Função А Punição da 
| do modelo )- E da Ыы ше ERG do nS 

Discuta como os métodos de decaimento de peso e de eliminação de peso usados para 

podar a rede se ajustam neste formalismo. 

(a) Derive a fórmula para a saliência 5 dada na Eq. (4.105). 

(b) Assuma que a matriz hessiana do erro médio quadrado de um perceptron de mültiplas 
camadas em relação a seus pesos pode ser aproximado por uma matriz diagonal como 
segue: 

Н = diag[h, hi Ae Ì 


ir 


onde H é o número total de pesos da rede. Determine a saliência 5, do peso 16, da rede. 


Aceleração da convergência da aprendizagem por retropropagação 
4.13 A regra de aprendizagem delta-barra-delta (Jacobs, 1988) representa uma forma modifi- 


cada do algoritmo de retropropagação que se baseia nas heuristicas descritas na Seção 

4.17. Nesta regra, atribui-se a cada peso sináptico da rede um parâmetro da taxa de apren- 

dizagem particular. A função de custo, Efn), €, portanto, modificada de uma forma corres- 

pondente, Em outras palavras, apesar de Ela) ser matematicamente similar à função de 

custo £(n) na Eq.(4.2), o espaço de parâmetros relativo à nova função de custo Er) envol- 

ve diferentes taxas de aprendizagem. 

(a) Derive uma expressão para à derivada parcial dE(nyon (n), ande TL Gr) É o parámetro 
da taxa da aprendizagem associado ao peso sináptico wu (m). 

(b) Com isso, demonstre que os ajustes feitos nos parámetros da taxa de aprendizagem 
baseados no resultado da parte (a) estão perfeitamente de acordo com as heuristicas 3 
€ 4 da Seção 4.17. 


Métodos de otimização de segunda ordem 


4.14 


4.15 


O uso de um termo de momento na atualização dos pesos descrito na Eq. (4.39) pode ser 
considerado como uma aproximação do método do gradiente conjugado (Battiti, 1992). 
Discuta a validade desta afirmação. 

Começando com a fórmula para Pin) na Eq. (4.133), derive a formula de Hesteness-Stiefel: 


Bio) = ОПЕЕ rin = 1Y} 
x (n — Drín - 1) 


onde s(1) € o vetor direção e r(n) é o residual no método do gradiente conjugado. Use este 
resultado para derivar a fórmula de Polak-Ribiére da Eq. (4.134) e a fórmula de Fletcher- 
Reeves da Eq. (4.135). 


Experimentos computacionais 


4.16 


Investigue à uso da aprendizagem por retropropagacáo usando uma náo-linearidade 
sigmoide para realizar os mapeamentos um-para-um, descritos abaixo: 
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CAPÍTULO 5 


Redes de Função de Base Radial 


5.1 INTRODUÇÃO 


O projeto de uma rede neural supervisionada pode ser executado de várias formas. O algoritmo de 
retropropagação utilizado para o projeto de um perceptron de múltiplas camadas (sob supervisão), 
como descrito no capítulo anterior, pode ser visto como a aplicação de uma técnica recursiva conhe- 
cida na estatística como aproximação estocástica. Neste capítulo, tomamos um enfoque totalmente 
diferente ao ver o projeto de uma rede neural como um problema de gjuste de curva (aproximação) 
em um espaço de alta dimensionalidade. De acordo com este ponto de vista, aprender é equivalente 
a encontrar uma superficie, em um espaço multidimensional, que forneça o melhor ajuste para os 
dados de treinamento, com o critério de “melhor ajuste” sendo medido em um sentido estatístico. 
Correspondentemente, generalização é equivalente ao uso desta superficie multidimensional para 
interpolar os dados de teste. Tal ponto de vista é a motivação por trás do método das funções de base 
radial, no sentido de que isto o aproxima dos trabalhos de pesquisa em interpolação estrita tradici- 
onal em um espaço multidimensional. No contexto de uma rede neural, as unidades ocultas forne- 
cem um conjunto de “funções” que constituem uma "base" arbitrária para os padrões (vetores) de 
entrada, quando eles são expandidos sobre o espaço oculto: estas funções são chamadas de funções 
de base radial.! As funções de base radial foram primeiramente introduzidas na solução do proble- 
ma de interpolação multivariada real. O trabalho inicial neste assunto é detalhado em Powell (1985), 
e um trabalho mais recente é examinado em Light (1992b). Este é atualmente um dos campos 
principais de pesquisa em análise numérica. 

A construção de um rede de fungdo de base radial (RBF, radial-basis function), em sua forma 
mais básica, envolve três camadas com papéis totalmente diferentes. A camada de entrada é consti- 
tuida por nós de fonte (unidades sensoriais) que conectam a rede ao seu ambiente. А segunda cama- 
da, a única camada oculta da rede, aplica uma transformação não-linear do espaço de entrada para 
o espaço oculto; na maioria das aplicações, o espaço oculto é de alta dimensionalidade. A camada 
de saída é linear, fomecendo a resposta da rede ao padrão (sinal) de ativação aplicado à camada de 
entrada. Uma justificativa matemática рага a estratégia de uma transformação não-linear seguida de 
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Um problema complexo de classificação de padrões disposto não linearmente em um espaço de alta 
dimensão tem maior probabilidade de ser linearmente separável do que em um espaço de baixa 
dimensionalidade. 


Do trabalho que desenvolvemos sobre perceptrons de camada ünica no Capitulo 3, sabemos que, 
uma vez que tenhamos padrões linearmente separáveis, o problema de classificação é relativa- 
mente fácil de ser resolvido. Conseqüentemente, podemos desenvolver a nossa compreensão so- 
bre a operação de uma rede RBF como um classificador de padrões estudando a separabilidade de 
padrões. 

Considere uma familia de superficies onde cada uma divide naturalmente um espaço de 
entrada em duas regiões. Considere que @ represente um conjunto de N padrões (vetores) x, 
х, ..... X,, cada um dos quais é atribuído a uma de duas classes X, e £. Dizemos que esta dicotomia 
(partição binária) dos pontos é separável em relação à familia de superficies, se existir uma super- 
ficie da familia que separe o pontos da classe Y, daqueles da classe Æ. Para cada padrão xe Y, 
defina um vetor constituido de um conjunto de funções de valor real [(x)|i = 1, 2,..., т}, como 
mostrado por 


ф(х) = [ф(х),ф.(х),...,Ф„ 00], (5.1) 


Suponha que o padrão x é um vetor em um espaço de entrada de dimensão m,. O vetor q(x), então, 
mapeia pontos no espaço de entrada de dimensão m, para pontos em um novo espaço de dimensão 
т. Referimo-nos a ф(х) como uma função oculta, porque ela desempenha um papel similar ao de 
uma unidade oculta em uma rede neural alimentada adiante. Correspondentemente, o espaço abran- 
gido pelo conjunto de funções ocultas |9, (x) é referido como o espaço oculto ou espaço de 
caracteristicas. 

Uma dicotomia (2, %,] de Y é dita ser separável por tp, se existir um vetor w de dimensão m, 
para o qual podemos escrever (Cover, 1965) 


w'qx)*0, xeX, 
wriet, xe, (5.2) 


O hiperplano definido pela equação 
w'gi(x) = 0 


descreve a superficie de separação no espaço q (i.e espaço oculto). А imagem inversa deste 
hiperplano, isto é, 


x: міх) = 0 (5.3) 


define a superficie de separação no espaço de entrada, 

Considere uma classe natural de mapeamentos obtidos utilizando-se uma combinação linear 
de produtos de r coordenadas vetoriais do padrão. As superficies de separação correspondentes a 
estes mapeamentos são referidas como variedades racionais de ordem r. Uma variedade racional de 
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FIGURA 5.2 (a) Os quatro padrões do problema do ХОВ: (b) Diagrama de tomada 
de decisão 


TABELA 5.1 Especificação das Funções Ocultas para o Problema 
do XOR do Exemplo 5.1 





Padrão de Entrada, Primeira Função Oculta, Segunda Função Oculta, 
x px) qu) 
(1,1) 1 0,1353 
(0,1) 0,3678 0,3678 
(0,0) 0,1353 | 
(1,0) 0,3678 0,3678 


entrada, (1, 1) e (0, 0). Por conseguinte, o problema do XOR pode ser facilmente resolvido usando-se as 
funções p (x) e q.(x) como as entradas de um classificador linear como o perceptron. 
a 
Neste exemplo, nào hà aumento da dimensionalidade do espaço oculto, comparado ao espaço de 
entrada. Em outras palavras, a nào-lineandade exemplificada pelo uso de funções ocultas gaussianas ё 
suficiente para transformar o problema do XOR em um problema linearmente separável. 


Capacidade de Separação de uma Superficie 


A Equação (5.5) tem um significado importante para o número máximo de padrões aleatoriamente 
distribuidos que são linearmente separáveis em um espaço multidimensional, Para explorar esta 
questão, considere que х, X- x, веја uma sequência de padrões (vetores) aleatórios como deseri- 
to previamente. Considere que N seja uma variável aleatória definida como o maior inteiro tal que 
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esta sequência seja separável por q, onde q tem m, graus de liberdade. Então, da Eq. (5.5) deduzi- 
mos que a probabilidade que N = n é dada por 


Prob(N = п) = P(n,m,) Pin -1,m,) 
ll al 2-0,,2,.., (5.6) 
2, \m -1 


Para uma interpretação deste resultado, recordamos a definição de uma distribuição binomial nega- 
tiva. Esta distribuição é igual à probabilidade que k falhas precedam o r-ésimo sucesso em uma 
longa seqúéncia repetida de tentativas de Bernoulli. Neste experimento probabilistico, há apenas 
dois resultados possíveis para cada tentativa, sucesso ou falha, e suas probabilidades permanecem 
as mesmas em todo o experimento. Considere que p e q representem as probabilidades de sucesso e 
falha, respectivamente, com p + q = 1. A distribuição binomial negativa é definida por (Feller, 1968) 


fir, p)= zu Е 


Para o caso especial de p= q = 1/2 (i.e., sucesso e falha são egüiprováveis) ck + = n, a distribuição 
binomial negativa se reduz a 


1 inel 
a m — E — = LB 
Дк ki) Bl | ) n=0,1,2, 


Com esta definição, vemos agora que o resultado descrito na Eg. (5.6) é apenas a distribuição 
binomial negativa, deslocada de m, unidades para a direita, e com parámetros m, е 1/2. Assim, N 
corresponde ao “tempo de espera" até а m,-ésima falha em uma seqüéncia de lançamentos de uma 
moeda honesta. O valor esperado da variável aleatória N e sua mediana são, respectivamente: 


EIN] = 2m, (5.7) 


Mediana[N] = 2m, (5.8) 


Portanto, temos um corolário para 0 teorema de Cover na forma de um resultado assintótico célebre 
que pode ser formulado como (Cover, 1965): 


O número máximo esperado de padrões (vetores) atribuidos aleatoriamente que são linearmente se- 
paräveis em um espaço de dimensão m, é igual a Zur, 


Este resultado sugere que 2m, é uma definição natural para a capacidade de seporação de uma 
familia de superficies de decisão tendo m, graus de liberdade. De uma certa forma, a capacidade de 
separação de uma superficie está intimamente relacionada com a noção de dimensão V-C, que é 
discutida no Capitulo 2. 
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5.3 O PROBLEMA DE INTERPOLACAO 


O ponto importante que emerge do teorema de Cover sobre a separabilidade de padrões é que, 
resolvendo um problema de classificação de padrões nào-linearmente separável, hã normalmente 
um beneficio prático ganho pelo mapeamento do espaço de entrada em um novo espaço de dimen- 
são suficientemente alta, Basicamente, um mapeamento não-lincar é usado para transformar um 
problema de classificação náo-linearmente separável em um problema linearmente separável. De 
uma maneira similar, podemos usar um mapeamento não-linear para transformar um problema de 
filtragem não-linear dificil em um problema mais fácil que envolve filtragem linear. 

Considere então uma rede alimentada adiante com uma camada de entrada, uma única camada 
oculta e uma camada de saída consistindo de uma única unidade, A escolha de uma única unidade 
de saida foi proposital para simplificar à exposição sem perda de generalidade, A rede é projetada 
para realizar um mapeamento não-linear do espaço de entrada para o espaço oculto, seguido de um 
mapeamento linear do espaço oculto para o espaço de saida. Considere que m, represente a dimen- 
são do espaço de entrada. Então, de uma maneira global, a rede representa um mapa do espaço de 
entrada de dimensionalidade m, em um espaço de saida unidimensional, escrito como 


s: Rm R! (5.9) 


Podemos considerar o mapa s como uma hipersuperficie (gráfico) Г с RW, assim como conside- 
ramos o mapa elementar s; E! — IR", onde s(x) = x”, como uma parábola no espaço В?. A superficie 
T é um gráfico multidimensional da saida como função da entrada. Em uma situação prática, a 
superficie Г é desconhecida e os dados de treinamento estão normalmente contaminados com ruido. 
A fase de treinamento e a fase de generalização do processo de aprendizagem podem ser respectiva- 
mente vistas como segue (Broomhead e Lowe, 1988): 


e A fase de treinamento constitui a otimização de um procedimento de ajuste para a superfi- 
cie Г, baseada nos pontos dos dados conhecidos apresentados à rede na forma de exemplos 
(padrões) de entrada-saida. 

* A fase de generalização é sinónimo de interpolação entre os pontos de dados, com a 
interpolação sendo formada ao longo da superficie restrita gerada pelo procedimento de 
ajuste, como a aproximação ótima à superficie verdadeira Г. 


Assim, somos levados à teoria da interpolação multivariada em um espaço de alta dimensionalidade, 
que tem uma longa história (Davis, 1963). O problema de interpolação, no seu sentido estrito, pode 
ser formulado como: 


Dado um conjunto de N pontos diferentes 1x, € Ru | i = 7. 2. N eum conjunto correspondente de 


N números reais id e R'| i Л, 2... V], encontre uma função F: R* — R' que satisfaga a condição 
de interpolação: 


F(x)"d, Im 1,2,., N (5.10) 


Para a interpolação estrita como aqui especificada, a superficie de interpolação (i.e., a função F) é 
obrigada a passar por todos os pontos dos dados de treinamento. 
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Se qualquer uma destas condições não for satisfeita, dizemos que o problema € malformulado. 
Basicamente um problema malformulado significa que grandes conjuntos de dados podem conter 
uma quantidade surpreendentemente pequena de informação acerca da solução desejada. 

No contexto da nossa situação atual, o fenômeno fisico responsável pela geração de dados de 
treinamento (p.ex., voz, imagens, sinais de radar, sinais de sonar, dados sismicos) é um problema 
direto bem-formulado. Entretanto, aprender a partir destas formas físicas de dados, visto como um 
problema de reconstrução de hipersuperficie, é um problema inverso malformulado pelas seguintes 
razões. Primeiro, o critério de existência pode ser violado na medida que para toda a entrada pode 
não existir uma saida distinta. Segundo, pode não haver tanta informação na amostra de treinamen- 
to quanto realmente necessitamos para reconstruir unicamente o mapeamento de entrada-saida, 
sendo, dessa forma, provável que o entério de unicidade seja violado. Terceiro, a inevitável presen- 
ca de ruído ou imprecisão nos dados de treinamento reais adiciona incerteza ao mapeamento de 
entrada-saida reconstruído. Em particular, se o nivel de ruido na entrada for muito grande, é possi- 
vel que a rede neural produza uma saida fora do intervalo Y para uma entrada especifica x do 
dominio Æ; em outras palavras, há uma probabilidade de que o critério de continuidade seja viola- 
do. Se um problema de aprendizagem não possui a propriedade da continuidade, então o mapeamento 
de entrada-saida computado nào tem nada a ver com a verdadeira solução para o problema de 
aprendizagem. Não há como superar esta dificuldade a menos que alguma informação prévia sobre 
o mapeamento de entrada-saida esteja disponivel. Neste contexto, ё bastante apropriado que nos 
lembremos de uma afirmação de Lanczos sobre operadores diferenciais lineares (Lanezos, 1964): 
“Uma falta de informação não pode ser remediada por nenhum truque matemático” 

A importante questão de como transformar um problema malformulado em um problema 
bem-formulado via regularização é discutida na próxima Seção. 


5.5 ATEORIA DA REGULARIZAÇÃO 


Em 1963, Tikhonov propós um novo método chamado regularização para resolver problemas 
malformulados.* No contexto de um problema de reconstrução de hipersuperficie, a idéia básica de 
regularização é estabilizar a solução por meio de algum funcional não-negativo auxiliar que incor- 
pore informação prévia sobre a solução. A forma mais comum de informação prévia envolve a 
suposição de que a função do mapeamento de entrada-saida (i.e., a solução do problema de recons- 
trução) seja suave, no sentido de que entradas similares correspondam a saídas similares. 

Para sermos específicos, considere que o conjunto de dados de entrada-saída (i.e., amostra de 
treinamento) disponivel para a aproximação seja descrito por 


Sinal de entrada: x ek", iz], ZN 
(5.20) 
Resposta desejada: d, €R', [z1,2,..,.N 


Note que se assume que a saida seja unidimensional, Esta suposição não limita de forma alguma a 
aplicabilidade geral da teoria da regularização aqui desenvolvida. Considere que a função aproxi- 
mativa seja representada por F(x), onde (por conveniência de representação) omitimos o vetor de 
peso w da rede do argumento da função F. Basicamente, a teoria de regularização de Tikhonov 
envolve dois termos: 


1. Termo do Erro Padrão. Este primeiro termo, representado por É (F), mede o erro (distância) 


padrão entre a resposta desejada (alvo) d e a resposta real y para o exemplo de treinamento i = 
l, 2,..., №. Especificamente, definimos 
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D 
€,F)- 7 Y (d - y) 
del 


(5.21) 


Ya, - Fix, li 


| 

2£ 
onde introduzimos o fator de escala 4 para manter a consistência com o material apresentado 
nos capítulos anteriores. 

2. Termo de Regularização, Este segundo termo representado por € (F), depende das proprieda- 
des “geométricas” da função aproximativa F(x). Especificamente, podemos escrever 


8 (Fj= „IDA (5.22) 


onde D é um operador diferencial linear. A informação prévia sobre a forma da solução [i.e., a 
função de entrada-saida F(x)] é incorporada no operador D, o que torna naturalmente a seleção 
de D dependente do problema. Também nos referimos a D como um estabilizador porque ele 
estabiliza a solução para o problema de regularização, fazendo-a suave e desta forma satisfa- 
zendo a propriedade de continuidade. Entretanto, suavidade implica continuidade, mas o inver- 
so não é necessariamente verdadeiro. 


A abordagem analítica usada para tratar a situação descrita na Eq. (5.22) se apóia no conceito de um 
espaço de função que se refere a um espaço normalizado" de funções. Neste espaço de várias 
(estritamente falando, infinitas) dimensões, uma função continua é representada por um vetor. Usando 
esta imagem geométrica, estabelece-se uma ligação entre matrizes e operadores diferenciais linea- 
res. À análise de sistemas lineares se torna com isso traduzivel para a análise de equações diferenci- 
ais lineares (Lanezos, 1964). 

Assim, o simbolo ||-|| na Eq. (5.22) representa uma norma imposta ao espaço de função ao qual 
DF(x) pertence. Normalmente, o espaço de função usado aqui é о espaço L, que consiste de todas as 
funções de valor real Ax), x e R”,, para as quais ПАХ) é integrável por Lebesgue. A função Mx) 
usada aqui representa a função real que define o processo físico responsável pela geração do con- 
junto de pares de dados de entrada-saida [xd veja a nota 7 para maiores detalhes. 


A quantidade a ser minimizada na teoria de regularização é 


€(F)-2 (F)+ АЕ (Ру 
Xd - Ff + apar 


i=l 


(5.23) 


E 

"2 
onde À é um número real positivo chamado de parámetro de regularização e ЄР) é denominado o 
funcional de Tikhonov. Um funcional mapeia funções (definidas em um espaço de funções adequa- 
do) para a linha dos reais. O minimizador do funcional de Tikhonov E(F) (i.e. a solução para o 
problema de regularização) é representado por F (x). 

Neste sentido, podemos considerar o parâmetro de regularização À como um indicador da 
suficiência do conjunto de dados fornecido como exemplos que especificam a solução F,(x). Em 
particular, o caso limite À — 0 implica que o problema é irrestrito, com a solução F,(x) sendo 
totalmente determinada pelos exemplos. O outro caso limite, À — =, por outro lado, implica que a 
restrição prévia de suavidade imposta pelo operador diferencial D é por si só suficiente para especi- 
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ficar a solução Р(х}, que é uma outra forma de dizer que os exemplos não são confiáveis. Em 
aplicações práticas, atribui-se ao parâmetro de regularização À um valor entre estas duas condições 
limites, de forma que tanto os dados da amostra como a informação prévia contribuem para a solu- 
ção Fx). Assim, o termo de regularização É (F) representa uma função modelo de punição de 
complexidade, cuja influência sobre a solução final é controlada pelo parâmetro de regularização À. 

Uma outra forma de se interpretar a regularização é considerando que ela fornece uma solução 
prática para o dilema bias-variância que é discutido no Capítulo 2. Especificamente, a escolha 
ótima do parâmetro de regularização À é projetada para conduzir a solução do problema de aprendi- 
zagem para um balanço satisfatório entre bias modelo e variância modelo, pela incorporação da 
quantidade certa de informação prévia. 


Diferencial de Fréchet do Funcional de Tikhonov 


O princípio da regularização pode ser agora formulado como: 


Encontre a função Ё (x) que minimiza o funcional de Tikhonov ELF), definido por 
S(F) = EF + ME (Ру 


onde € (Р) é a termo de erro padrão, É (Р) é o termo de regularização e À é o parámetro de regula- 
rização. 


Para prosseguirmos com a minimização do funcional de custo €(F), precisamos de uma regra para 
avaliar o diferencial de &(F). Podemos considerar esta questão usando o diferencial de Frechet, No 
cálculo elementar, а tangente de uma curva é uma linha reta que fornece a melhor aproximação da 
curva na vizinhança do ponto de tangência. Similarmente, o diferencial de Fréchet de um funcional 
pode ser interpretado como a melhor aproximação linear local. Assim, o diferencial de Fréchet do 
funcional €(F) é formalmente definido por (Dorny, 1975; Debnath e Mikusinski, 1990; de Figueiredo 
e Chen, 1993): 


dELF.h) [Sers | (5.24) 
dB - 


onde h(x) é uma função fixa do vetor x. Na Eq. (5.24), são usadas as regras ordinárias da diferenci- 
ação. Uma condição necessária para a função F(x) ser um extremo relativo do funcional E(F) é que 
o diferencial de Fréchet dE(F A) deve ser zero em F(x) para todo he #, como mostrado por 


d'é(F, = d'é CF, h) + Ad E (Е, А) = 0 (5.25) 


onde dE (F, A) ed € (Р, А) são os diferenciais de Fréchet dos funcionais € (F) e € (Р), respectiva- 
mente. 
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Calculando o diferencial de Fréchet do termo de erro padrão € (F, А) da Eq. (5.21), temos 


dê (FR) [5º (F+ | 
Bei 


Ide 2 
= E» - F(x,)- Bh(x,)] |, 


(5.26) 
=- P [4 - Fix.) - Bh(x itx, X, 


= - Y [d, - F(x,)]hix,) 


Neste ponto da discussão, consideramos instrutivo invocar o teorema da representação de Riesz, 
que pode ser expresso como segue (Debnath e Mikusiüski, 1990; Kirsh, 1996): 


Considere que f seja um funcional linear limitado em um espaço de Hilbert (i.e, um espaço do 
produto interno que é completo)" representado por ff. Existe um л e # tal que 


f^ (В, h,), para todo he X 
Além disso, temos que 
Nf = IA, 
onde 3t é o dual ou conjugado do espaço de Hilbert 3C. 
O simbolo (.,-),, usado aqui representa o produto interno (escalar) de duas funções no espaço X. 


Assim, com base no teorema da representacáo de Riesz, podemos rescrever o diferencial de Fréchet 
dE (Е, h) da Eq. (5.26) na forma equivalente 


dE (F,h)= (nie -FB, ) (5.27) 
izl 


x 


onde á representa а distribuição delta de Dirac de x, centrada em x, isto é, 
б, (x) 26(x— x.) (5.28) 


Considere a seguir o cálculo do diferencial de Fréchet do termo de regularização © (F) da Eq. 
(5.22). Procedendo de uma forma similar áquela recém-descrita, temos 
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1 


de (F‚h)= —' € (F+ Bh) |, 


Be (D[F+BA]) ах Beo 


1 
2 
| DF «B h|Dh dx (5.29) 
Е 


lg =й 


onde (Dh, DF), é o produto interno das duas funções Dh(x) e DF(x) que resultam da ação do 
operador diferencial D sobre h(x) e F(x), respectivamente. 


Equação de Euler-Lagrange 


Dado um operador diferencial linear D, podemos encontrar um operador adjunto unicamente deter- 
minado, representado рог D, tal que para qualquer par de funções u(x) e v(x) que são suficiente- 


mente diferenciáveis e que satisfazem condições de contorno adequadas, podemos escrever (Lanczos, 
1964) 


| u(x)Dv(x)dx - | v(x)Du(x)dx (5.30) 


A Equação (5.30) é denominada identidade de Green; ela fornece uma base matemática para definir 
o operador adjunto D em termos do diferencial D dado. Vendo D como uma matriz, o operador 
adjunto D desempenha um papel similar ao de uma matriz transposta. 

Comparando o lado esquerdo da Eq. (5.30) com a quarta linha da Eq. (5.29), podemos fazer as 


seguintes identificações: 
их) = DF(x) 


Do(x) = Dix) 


Usando а identidade de Green, podemos rescrever a Eq. (5.29) na forma equivalente 


dE (Е, №) =f 


R 


i h(x)DDFix dx (5.31) 


= (4, DDr), 


onde D é o adjunto de D. 
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Retornando à condição extrema descrita na Eq. (5.25) e substituindo as diferenciais de Fréchet 
das Eqs. (5.27) e (5.31) naquela equação, podemos agora expressar o diferencial de Fréchet dé(F, 
h) como 


dé(F, к) = СС Ps. | (5.32) 


x 


Como normalmente atribui-se ao parâmetro de regularização À um valor dentro do intervalo aberto 
(0, ==), o diferencial de Fréchet EF, л) é zero para todo h(x) no espaço # se e somente se a seguinte 
condição for satisfeita no sentido distributivo: 


DDA, - (d, -F)8, =0 


ou equivalentemente, 


DDA) - 7 Y [a Fax) (5.33) 


A equação (5.33) é a equação de Euler-Lagrange para o funcional de Tikhonov E(F), ela define 
uma condição necessária para o funcional de Tikhonov €(F) ter um extremo em Р(х) (Debnath e 
Mikusinski, 1990). 


Função de Green 


A Equação (5.33) representa uma equação diferencial parcial para a função aproximativa F. Sabe-se 
que a solução desta equação consiste da transformação integral do lado direito da equação. 

Considere que G(x, É) represente uma função na qual ambos os vetores x e É aparecem em pé 
de igualdade, mas para propósitos diferentes: x como um parâmetro e E como um argumento. Para 
um dado operador diferencial linear L, estipulamos que a função G(x, É) satisfaça as seguintes 
condições (Courant e Hilbert, 1970): 


1. Para um É fixo, G(x, E) é uma função de x e satisfaz as condições de contorno prescritas. 

2. Exceto no ponto x = E, as derivadas de G(x, E) em relação a x são todas continuas; o número de 
derivadas é determinado pela ordem do operador L. 

3. Com G(x, É) considerada como uma função de x, ela satisfaz a equação diferencial parcial 


LG(x, Е) = 0 (5.34) 


em todos os lugares exceto no ponto x = E, onde ela tem uma singularidade. Isto é, a função G(x, E) 
satisfaz a seguinte equação diferencial parcial (no sentido das distribuições): 


Т.х, 5) = Mx - 5) (5.35) 


onde, como definido anteriormente, б(х = É) é a função delta de Dirac posicionada no ponto x = 5. 
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Então, podemos usar a Eq. (5.36) para escrever 


ве) | 00 la F(x) x) 
Xl A] | cis x) 


onde na última linha trocamos a ordem da integração e do somatório. Finalmente, usando a propri- 
edade de filtragem da função delta de Dirac, obtemos a solução desejada da equação de Euler- 
Lagrange (5.33) como segue: 


RODA) (5.41) 


A Equação (5.41) afirma que a solução FA(x) de minimização para o problema de regularização é 
uma superposição linear de N funções de Green. Os x representam os centros da expansão, е os 
pesos [d, — F(x )]/A representam os coeficientes da expansão. Em outras palavras, a solução para o 
problema de regularização se encontra em um subespaço N-dimensional do espaço de funções sua- 
ves, e o conjunto de funções de Green [G(x, x.)] centradas em E, É = 1, 2,..., №, constitui uma base 
para este subespaço (Poggio e Girosi, 1990a). Note que os coeficientes de expansão na Eq. (5.41) 
são, primeiro, lineares em relação ao erro de estimação, definido como a diferença entre a resposta 
desejada d e a saída correspondente F(x) calculada pela rede, e segundo, inversamente proporcio- 
nais ao parâmetro de regularização À. 


Determinação dos Coeficientes da Expansão 


A próxima questão a ser resolvida é a determinação dos coeficientes desconhecidos na expansão da 
Eq. (5.41). Considere 


1 É 
Ww, -il4- (x) i=l, An N (5.42) 
Com isso, podemos dispor a solução de minimização da Ea. (5.41) simplesmente como: 
E(x)= Y w,G(x,x,) (5.43) 
tel 
Calculando a Eq. (5,43) em x, = 1, 2,..., М, obtemos 
N 
K(x)-YwG(z.x) ^ j-,2.N (5.44) 


Emil 


Introduzimos agora as seguintes definições: 
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Camada Camada Camada 
de entrada oculta de ту de saida 
funds de 
base radial 


FIGURA 5.5 Hede de função de base radial 


3. A solução calculada pela rede de regularização é órima. Ótimo aqui significa que a rede de 
regularização minimiza um funcional que mede o quanto a solução se desvia de seu valor real 
como representado pelos dados de treinamento. 


5.7 REDES DE FUNÇÃO DE BASE RADIAL GENERALIZADAS 


A correspondência de um-para-um entre os dados de entrada de treinamento x, e a função de Green 
G(x, x) para i= 1, 2,..., N produz uma rede de regularização que pode ser algumas vezes considera- 
da proibitivamente custosa para ser implementada em termos computacionais, para N grande. Espe- 
cificamente, o cálculo dos pesos lineares da rede [i.e., os coeficientes da expansão na Eq. (5.55)] 
requer a inversão de uma matriz N-por-N, que por sua vez cresce de modo polinomial com N (apro- 
ximadamente com Nº). Além disso, a probabilidade de mau condicionamento é maior para matrizes 
maiores; o número condicionante de uma matriz é definido como a razão entre o maior autovalor e 
o menor autovalor da matriz, Para superar estas dificuldades computacionais, a complexidade da 
rede deve ser reduzida, o que requer uma aproximação para a solução regularizada. 

A abordagem seguida envolve a procura por uma solução subótima em um espaço de menor 
dimensionalidade que aproxime a solução regularizada da Eg. (5.55). Isto é feito usando-se uma 
técnica padrão conhecida em problemas variacionais como método de Galerkin. De acordo com 
esta técnica, a solução aproximada F*(x) é expandida em uma base finita, como mostrado por 
(Poggio e Girosi, 19904) 


(х) = Y а(х) (5.67) 


onde [Qíxyi— 1, 2,..., т | éumnovo conjunto de funções de base que assumimos serem linearmen- 
te independentes sem perda de generalidade. Tipicamente, o número de funções de base é menor 
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que o número de pontos de dados (ien m, $ №), e os W, constituem um novo conjunto de pesos. 
Tendo em mente as funções de base radial, fazemos 


ф(х) = Clk tl. E= l, Zye M (5.68) 


onde o conjunto de centros {ti = 1, 2,.., m j deve ser determinado. Esta escolha particular de 
funções de base é a única que garante que no caso de m, = N, е 


a solução correta da Eq. (5,58) é recuperada de forma consistente. Assim, usando a Eq. (5.68) em 
(5.67), podemos redefinir F*(x) como 


F*(x)- Y wG(x,t) 
Га | 


= (5.69) 
=> wx - t 


Dada a expansão da Eg. (5.69) para a função aproximativa ех), о problema que enfrentamos 
agora é a determinação do novo conjunto de pesos {| = 1, 2...., m, | que minimiza o novo funcio- 
nal de custo &(F*} definido por 
EMP") = DE - Y w,Gx, - 7) + AIDE + (5.70) 
ral del 
O primeiro termo no lado direito da Eq. (5.70) pode ser expresso como a norma euclidiana quadrada 
id — Са |, onde 


d= [d,.d,,. de] (5.71) 
G(x,t) — G(x.t) co Gix,.t,) 

Е xp t) к t). ce Grt) (5.72) 
Axt} OG(x,,t,) -- Сүх. t, ) 

Ww = [Ut 85... n, Y (5.73) 


O vetor resposta desejada d é N-dimensional como anteriormente. Entretanto, a matriz С de fun- 
ções de Green e o vetor de peso w têm dimensões diferentes; a matriz G é agora N-por-m, e portanto 
não é mais simétrica, e o vetor w é mm, -por-1. Da Eq. (5.69) notamos que a função aproximativa F* 
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é uma combinação linear das funções de Green para o estabilizador D. Conseqüentemente, pode- 
mos expressar o segundo termo no lado direito da Eg. (5.70) como 


DF =(DF*,DF*), 


- p w,G(x,t,), boy «ка| 


fal F 


= > w,G(x, t, » IM 
iul dal w 


W m, 


= Y Du Gtt) 


jul del 
=w'G,w 
onde na segunda e na terceira linhas fizemos uso da definição de um operador adjunto e da Eg. 


(5.35), respectivamente. A matriz G, é uma matriz simétrica m,-por-m,, definida por 


Gtt) G(t.t) += а) 
Cit, t) Git, t} SEE Се.) 


n 


(5.75) 
Gt, ,t,) Cita sto) isk Git, st, ) 


Assim, à minimização da Eq. (5.70) em relação ao vetor de peso w produz o resultado (veja o 
Problema 5.5) 


(GIG + AG ум = G'd (5,76) 


Quando o parâmetro de regularização À se aproxima de zero, o vetor de peso w converge para a 
solução da pseudo-inversa (norma minima) do problema indeterminado de ajuste de dados por 
quadrados mínimos para m, < N, como mostrado por (Broomhead e Lowe, 1988) 


wz Gd, А = 0 (5.77) 
onde G" é a pseudo-inversa da matriz G; isto é, 


G'-(G'G)'G' (5.78) 


Norma Ponderada 


A norma nå solução aproximada da Eq. (5.69) é normalmente subentendida como uma norma 
euclidiana. Quando, entretanto, os elementos individuais do vetor de entrada x pertencem a classes 
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diferentes é mais apropriado considerar uma norma ponderada genérica, cuja forma quadrática é 
definida por (Poggio e Girosi, 1990) 


Jsb = (Cx) (Cx) 


5.79 
-x'C'Cx ) 
onde C é uma matriz de ponderação de norma m, -por- My e m, é a dimensão do vetor de entrada x. 
Usando a definição de norma ponderada, podemos rescrever a aproximação para a solução 
regularizada na Eq. (5.69) em uma forma mais generalizada (Lowe, 1989; Poggio e Girosi, 19902) 


F*(x)e Su Giz - t) (5.80) 


O uso de uma norma ponderada pode ser interpretado de duas formas. Podemos simplesmente vê- 
lo como a aplicação de uma transformação afim sobre o espaço de entrada original. A principio, 
uma transformação como essa não pode degradar os resultados do caso original, já que ela realmen- 
te corresponde a uma matriz identidade de ponderação de norma. Por outro lado, a norma pondera- 
da resulta adiante de uma pequena generalização do laplaciano de dimensão m, na definição do 
operador pscudo-diferencial D па Eq. (5.63); veja o Problema 5.6. O uso de uma norma ponderada 
pode também ser justificado no contexto das funções de base radial gaussianas pelas seguintes 
razões. Uma função de base radial gaussiana Сх — t ||.) centrada em t, e com a matriz de pondera- 
ção de norma € pode ser expressa como 


Gile- t]. ) = exp| x - t)" C' C(x —4,)] 


] 5.81 
= ep JAN EA) er 


= 


onde a matriz inversa E` é definida por 


¿E -CC (5.82) 


A Equação (5,81) representa uma distribuição gaussiana multivariada com vetor média t, e matriz 
de covariáncia £. Como tal, ela representa uma generalização da distribuição descrita na Eq. (5.59). 

A solução para o problema de aproximação dado na Eq. (5.70) fornece a fundamentação para 
a rede de função de base radial (REF) generalizada tendo a estrutura mostrada na Fig. 5.5. Nesta 
rede, prevê-se o uso de um bias (i,e,, uma variável independente dos dados) aplicado à unidade de 
saida. Isto é feito simplesmente igualando-se um dos pesos lineares da camada de saída da rede ao 
bias e tratando a função de base radial associada como uma constante igual a +1. 

Em termos estruturais, a rede RBF generalizada da Fig. 5.5 é similar à rede RBF de regulari- 
zação da Fig. 5.4. Entretanto, elas diferem entre si em dois aspectos importantes: 


1. O número de nós na camada oculta da rede RBF generalizada da Fig. 5.5 é m, onde m, é 
normalmente menor que o número N de exemplos disponíveis para treinamento. Por outro lado, 
o número de nós ocultos na rede RBF de regularização da Fig. 5.4 é exatamente N. 
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2. Na rede RBF generalizada da Fig. 5.5, os pesos lineares associados com a camada de saida e as 
posições dos centros das funções de base radial e a matriz de ponderação de norma associada 
com a camada oculta são todos parâmetros desconhecidos que devem ser aprendidos. Entretan- 
to, as funções de ativação da camada oculta na rede RBF de regularização da Fig. 5.4 são 
conhecidas, sendo definidas por um conjunto de funções de Green centradas nos pontos de 
dados de treinamento; os pesos lineares da camada de saída são os únicos parâmetros desconhe- 
cidos da rede. 


Campo Receptivo 


A matriz de covariância £ determina o campo receptivo da função de base radial gaussiana G(||x — 
1.) dada na Eq (5.81). Para um centro predeterminado t, o campo receptivo de G(||x ~ 61.) é 
definido formalmente como o suporte da função 


V(x) = Cx tl) -a (5.83) 


onde a é uma constante positiva (Xu et al., 1994). Em outras palavras, o campo receptivo de G(||x — 
EIL) é aquele subconjunto particular do domínio do vetor de entrada x para o qual G(]jx — tll) 
assume valores suficientemente grandes, maiores que o nivel prescrito a. 

Em uma forma correspondente ao modo como a matriz de ponderação de norma C foi defini- 
da, podemos identificar três cenários diferentes relativos à matriz de covariância E e sua influência 
na forma, tamanho e orientação do campo receptivo: 


1. E= ol, onde I é a matriz identidade ес é uma variância comum. Neste caso, o campo recep- 
tivo de (|х — 41.) consiste de uma hiperesfera centrada em t, e com raio determinado por o. 

2. E- disg(0;,0;,...,0;, ), onde g} é a variância do j-ésimo elemento do vetor de entrada x ej = 1, 
2,..., M,. Neste segundo caso, o campo receptivo de G(]x — +1.) consiste de uma hiper-elipse 
cujos eixos individuais coincidem com aqueles do espaço de entrada e com a sua extensão ao 
longo do eixo j sendo determinada por б, 

3. E é uma matriz näo-diagonal. Por definição, E é uma matriz definida positivamente. Portanto, 
podemos usar a transformação de similaridade da álgebra matricial para decompor E como 
segue: 


E-Q'AQ (5.84) 


onde А é uma matriz diagonal e Q é uma matriz de rotação ortonormal. A matriz A determina a 
forma e o tamanho do campo receptivo, enquanto que a matriz Q determina a sua orientação, 


5.8 O PROBLEMA DO XOR (REVISITADO) 


Considere novamente o problema do AOR (OU Exclusivo), que resolvemos no Capitulo 4 usando 
um perceptron de múltiplas camadas com uma única camada oculta, Aqui apresentaremos uma 
solução para o mesmo problema usando uma rede RBF. 

A rede RBF a ser investigada consiste de um par de funções gaussianas, definidas como: 
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onde x, é um vetor de entrada e d é o valor correspondente da saida desejada, Seja 
к= Glix ti, f=l,2,3,4, i=l,2 (5.88) 


Então, usando os valores da Tabela 5.2 na Eq. (5.88), obtemos o seguinte conjunto de equações 
escritas na forma matricial: 





Gw=d (5,89) 
onde 
| 1 0,1353 1 
с. 193678 0,3678 1 (5.90) 
10,1353 | 1 
10,3678 0 3678 1 


d=[0 101] GR) 


w=[w w br (5.92) 


O problema descrito aqui é superdeterminado no sentido de que temos mais pontos de dados que 
parámetros livres. Isto explica por que а matriz G não é quadrada. Conseqüentemente, não existe 
uma inversa única para a matriz G. Para superarmos esta dificuldade, usamos a solução de norma 


minima da Eq. (5.78), e assim escrevemos 
w=G'd 

МСЕ рар (5.93) 

=(G'G) G'd 


Note que G'G é uma matriz quadrada com uma inversa única. Substituindo а Eq. (5.90) em (5,93), 
obtemos 


Г 18292 -1,2509 0,6727 -1,2509 
G'-| 0,6727 -1,2509 1,8292 -1,2509 (5.94) 
-0,9202 1,4202 -0,9202 1,4202 


Finalmente, substituindo as Eqs. (5.91) e (5.94) em (5,93), obtemos 


-2,5018 
му = | -2,5018 
+2,8404 


que completa a especificação da rede RBF. 
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^ 


к= У [/(x)- E) (599) 


dal 


O À ótimo é o valor particular de À que minimiza R(À). 
Considere que F (x,) seja expresso como uma combinação linear do conjunto de observáveis 
especificado, como segue: 


К(х,)= Уа, ()у, (5.100) 
dal 


Na forma matricial, podemos escrever de forma equivalente 


F,=A(A)y (5.101) 
onde 
T 
É, = EAT N (х„)| 
m 
у= [у-у-у 
E 
E js a N 
ages a ^" ls (5.102) 
Ям Ems yy 
A matriz N-por-N A(A) é chamada de matriz de influência. 
Usando esta notação matricial, podemos rescrever a Eq. (5.99) na forma 
1 2 
R(A) = „| = Е | 
(5.103) 


= alt= AGU 
onde o vetor f N-por-1 é 
f [Mx Mor, fr] 
Podemos avançar um passo na nossa formulação matricial rescrevendo a Eq. (5.95) na forma 
y-fte (5.104) 


onde 
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O erro médio quadrado sobre um conjunto especifico de dados, R(À), entretanto, não é uma 
medida prática porque requer o conhecimento da função de regressão f(x), que é a função a ser 
reconstruida. Como uma estimação de E[R(A)], introduzimos a seguinte definição (Craven e Wahba, 
1979) 








- | 2 0 p. в? › 
RO= AQ) + o(a -Eeft - АФУ] (5.110) 


Esta estimação não tem bias, na medida em que podemos mostrar (seguindo um procedimento 
similar ao descrito na derivação da Eq. (5.109)) que 


EUR (A)] = ELRO) (5.111) 


Conseqüentemente, o valor que minimiza a estimação R (A) pode ser tomado como uma boa esco- 
lha para o parâmetro de regularização À. 


Validação Cruzada Generalizada 


Uma desvantagem da estimação R (A) é que ela requer o conhecimento da variância do ruido o”. Em 
situações encontradas na prática, С? é normalmente desconhecida. Para tratarmos de situações desta 
natureza, podemos usar о conceito da validação cruzada generalizada que foi proposta por Craven e 
Wahba (1979). 

Começamos adaptando a forma usual de “deixar um de fora" da validação cruzada (descrita 
no Capítulo 4) ao problema em questão. Especificamente, seja FAN (x) a função que minimiza о 
funcional 


1% з: À 1 
=] F,(x,)] + Ibro) (5.112) 


imd 


onde o k-ésimo termo [v, -F (x,)] foi deixado de fora do termo de erro padrão. Deixando este termo 
de fora, podemos utilizar a habilidade de F(x) de “prever” o ponto de dado ausente y, como uma 
medida da qualidade de À. Conseqüentemente, podemos introduzir a seguinte medida de qualidade 


«09» LY p, - £o] (5.113) 


que depende apenas dos dados. A estimação de validação cruzada ordinária de À é, portanto, defi- 
nida como 0 valor que minimiza V) ( Wahba, 1990). 

Uma propriedade útil de Р(х.) é que, se o ponto de dado y, for substituído pela previsão 
Fix) eo funcional de Tikhonov original 8(F) da Eq. (5.98) for minimizado utilizando os pontos 
de dados у, y... Y, ү» Po Уно Уу Obtemos E (x ) como solução. Esta propriedade, juntamente 
com o fato de que para cada vetor de entrada x o F, (х) que minimiza &(F) depende linearmente de 
y, permite-nos escrever: 
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que, para sua computação, depende apenas de quantidades relacionadas com os dados, 


Uma Propriedade Ótima da Função de Validação Cruzada Generalizada MA) 


Considere que À minimize o valor esperado da função de validação cruzada FAJ. A ineficiência do 
valor esperado do método de validação cruzada generalizada é definida por 


pe = ELRO] 
min £[RO.)) 


onde R(A) é o erro médio quadrado sobre o conjunto de dados dado na Ед.(5.99). Naturalmente, o 
valor assintótico de /* satisfaz a condição 


(5.122) 


lim "= | (5.123) 


Em outras palavras, рага № grande, о erro médio quadrado А(А) com À estimado pela minimização 
da função РА) deve ser próximo do menor valor possível de £(A), o que torna РТА) um bom método 
para estimar À. 


Resumindo os Comentários 


A idéia geral é escolher o parâmetro de regularização À de forma a minimizar o erro médio quadra- 
do sobre o conjunto de dados, R(X). Infelizmente, isto não pode ser realizado adiante, pois R(À) 
envolve a função de regressão desconhecida f(x). Com isso, há duas possibilidades que podem ser 
seguidas na prática: 


. Se a variância do ruído @* for conhecida, podemos usar o valor que minimiza a estimação 
R (A) da Ea. (5.110) como a escolha ótima de À, ótima no sentido de que ela também 
minimiza R(Ã). 

* Sec não for conhecida, podemos usar o valor que minimiza a função de validação cruzada 
generalizada F/A) da Eg. (5.121) como uma boa escolha de À, que produz um erro médio 
quadrado esperado que se aproxima do menor erro médio quadrado possível quando N — 


UE, 


O ponto importante a notar aqui é que a teoria que justifica o uso da validação cruzada generalizada 
para estimar À é uma teoria assintótica. Por isso, só podem ser esperados bons resultados quando o 
conjunto de dados disponível for suficientemente grande para que o sinal possa ser distinguido do 
ruido. 

A experiência prática com a validação cruzada generalizada parece mostrar que ela é robusta 
em relação à não-homogeneidade de variáncias e a ruido não-gaussiano (Wahba, 1990). Entretanto, 
é bastante provável que o método produza estimativas insatisfatórias do parâmetro de regularização 
À se o processo de ruido for altamente correlacionado. 

Finalmente, faremos alguns comentários a respeito do cálculo da função de validação cruzada 
generalizada F(À). Para determinados valores experimentais do parâmetro de regularização À, en- 
contrar o termo do denominador [trfI-ACA) NT na fórmula da Eq. (5.121) ёа parte mais custosa do 
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5.11 COMPARAÇÃO ENTRE REDES RBF E PERCEPTRONS 
DE MULTIPLAS CAMADAS 


As redes de função de base radial (RBF) e os perceptrons de múltiplas camadas (MLP) são exem- 
plos de redes em camadas alimentadas adiante, náo-lineares, Ambos são aproximadores universais. 
Portanto, não causa surpresa a constatação de que sempre existe uma rede RBF capaz de imitar 
precisamente um MLP especifico, ou vice-versa. Entretanto, estas duas redes diferem entre si em 
vários aspectos importantes. 


1. Uma rede RBF (na sua forma mais básica) tem uma única camada oculta, enquanto que um 

MLP pode ter uma ou mais camadas ocultas. 

Tipicamente, os nós computacionais de um MLP, localizados em uma camada oculta ou em 

uma camada de saida, compartilham um modelo neuronal comum. Por outro lado, os nós 

computacionais na camada oculta de uma rede RBF são bastante diferentes c servem a um 
propósito diferente daqueles da camada de saída da rede. 

3. A camada oculta de uma rede RBF é não-linear, enquanto que a camada de saida é linear. 
Entretanto, as camadas ocultas e de saída de um MLP usado como classificador de padrões são 
normalmente todas näo-lineares. Quando o MLP é usado para resolver problemas de regressão 
não-linear, uma camada linear para a saida é normalmente a escolha preferida. 

4. O argumento da função de ativação de cada unidade oculta em uma rede RBF calcula a norma 
(distância) euclidiana entre o vetor de entrada e о centro daquela unidade, Enquanto 1550, a 
função de ativação de cada unidade oculta em um MLP calcula o produto interno do vetor de 
entrada pelo vetor de peso sináptico daquela unidade. 

5. Os MLPs constroem aproximações globais de um mapeamento de entrada-saida não-linear. Por 
outro lado, as redes RBF utilizando näo-linearidades localizadas com decaimento exponencial 
(p.ex., funções gaussianas) constroem aproximações locais para mapeamentos de entrada-saida 
náo-lineares, 


2 


Por sua vez, isto significa que para a aproximação de um mapeamento de entrada-saida näo-lincar, 
o MLP requer um número menor de parámetros que a rede RBF para o mesmo grau de precisão. 
Ав caracteristicas lineares da camada de saída da rede RBF indicam que esta rede está mais 
proximamente relacionada com o perceptron de Rosenblatt do que com o perceptron de múltiplas 
camadas. Entretanto, a rede RBF difere do perceptron pela capacidade de implementar transforma- 
ções não-lineares arbitrárias do espaço de entrada. Isto é bem ilustrado pelo problema do XOR, que 
não pode ser resolvido por nenhum perceptron linear, mas que pode ser resolvido por uma rede RBF. 


5.12 REGRESSÃO DE NÚCLEO E SUA RELAÇÃO 
COM AS REDES RBF 


A teoria das redes RBF apresentada até agora está baseada na noção de interpolação, Nesta seção, 
consideramos um outro ponto de vista, o da regressão de núcleo fundamentada na noção de estima- 
ção de densidade. 

Para sermos específicos, considere novamente o modelo de regressão não-linear da Eq. (5.95) 
reproduzido aqui por conveniência de apresentação: 


у= КЕ) те. г=1,2,.‚М 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


10. 


11. 


Renes DE Função pe Base Rania. 341 


3C. Uma seqüéncia de vetores (x 1 é chamada uma segiiéncia de Cauchy se para todo e > 
( existir um nümero M tal que (Debnath e Mikusinski, 1990) 


jx —x | Se рага todo (m, n) > M 


Em Girosi et al. (1995), um método diferente para derivar a Eq. (5.55) é apresentado 
relacionando-se o termo de regularização € (Fy adiante à suavidade da função aproximati- 
va Fix). 

A suavidade é vista como medida da natureza oscilatória de uma função. Em particu- 
lar, diz-se que uma função é mais suave que uma outra função se ela for menos oscilatória. 
Em outras palavras, quanto mais suave for uma função, menor será o seu conteúdo de alta 
frequência. Tendo em mente esta medida de suavidade, suponha que Fís) seja a transfor- 
mada de Fourier multidimensional de F(x), com s representando uma variável da transfor- 
mada multidimensional. Considere que As) represente uma função positiva que tende a 
zero quando |'s/| se aproxima do infinita, isto é, 1/H(s) representa a ação de um “filtro 
passa-altas". Então, de acordo com Girosi et al. (1995), podemos definir um funcional de 
suavização representando o termo de regularização como: 


Af aa 
en-if Eea s 


onde m, é a dimensão de x. Em virtude do teorema de Parseval da teoria de Fourier, este 
funcional ё uma medida da potência contida na saida do filtro passa-altas 1/H(s). Assim, 
dispondo o problema de regularização no dominio de Fourier e usando as propriedades da 
transformada de Fourier, a solução da Eq. (5,55) é derivada. 

A forma mais geral de um operador diferencial linear é 


mi 
desde axe ' abc -k2n 


D= pix, xx.) 


onde Kr Kamen X. SÃO ОБ elementos do vetor x, e pix, Х.Х} é uma função desses 
elementos. O operador adjunto de D é (Morse e Feshback, 1953) 


d^ 


Dr CD Sad aL 


| pix; EE RR ИЕ jl афр  +k=n 
Para obter a validação cruzada generalizada a partir de validação cruzada ordinária, pode- 
mos considerar um problema de regressão de aresta descrito em Wahba (1990): 

y= køre il) 
onde X é uma matriz М -por- № de entradas, e o vetor ruído € tem um vetor média nulo е 
uma matriz de covariância igual a cL. Usando a decomposição de valor singular de X, 
podemos escrever 

X = UDV' 

onde U e V são matrizes ortogonais e D é uma matriz diagonal. Seja 


liy 
V'a 


TE tee 
1 
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Ix. = x/C'Cx 
Considere um termo de regularização definido por 


| [р(х к = Y a, | lo Ff dx 
a= i g^ 


mi 


onde 


a 


“pr 
e о operador diferencial linear D é definido em termos do operador gradiente V e do 
operador Laplaciano V? como segue: 


Dii = (VI) 
Dua (vy 


Mostre que 


mcn 
Р(х) = 2 "y F(x) 
Na Seção 5.5, derivamos a função aproximativa F (x) da Eq. (5.66) usando a relação da 
Eq. (5.65). Neste problema, desejamos começar com a relação da Eq. (5.65) e usar a trans- 
formação multidimensional de Fourier para derivar а Eq. (5.66). Realize esta derivação 
usando a seguinte definição da transformada multidimensional de Fourier da função de 
Green Cx) 


awe | CG(x)exp(-is! x dx 
g^ 


ondei = 4—1 es é a variável transformada de dimensionalidade m, 

Considere o problema de regressão nào-linear descrito na Eq. (5.95). Considere que a, 
represente o ik-ésimo elemento da matriz inversa (С + AID". Com isso, começando com a 
Eq. (5.58), mostre que a estimação da função de regressão f(x) pode ser expressa como 


fix) s KV pix, x, y, 


onde у, é a saida do modelo para a entrada x, e 
b(x,x,)- У (|х ха, &21,2,...N 


onde G(]|-]) é a função de Green. 

As funções spline são exemplos de aproximadores polinomiais por partes (Schumaker, 
1981). A idéia hásica por trás do método de splines é a seguinte. Uma região de aproxima- 
ção de interesse é dividida em um número finito de subregiões usando nós; os nós podem 
ser fixos, e neste caso os aproximadores são linearmente parametrizados, ou eles podem 
ser variáveis, e neste caso 08 aproximadores são ndo linearmente parametrizados. Em 
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5,15 


(a) Considere uma seleção aleatória de centros usando m, = 20 centros. Calcule a média, 
o desvio padrão e os valores minimo e máximo da probabilidade de classificação 
correta P para diferentes valores de parámetros de regularização A = D, 0,1, L, 10, 
100, 1000. Para o cálculo das estatísticas dos conjuntos, use 50 tentativas independen- 
tes de redes por ensemble, com cada uma testada em relação a um conjunto de refe- 
rência com 1000 padrões. 

(b) Construa a fronteira de decisão calculada para a configuração descrita na parte (a), 
para o parâmetro de regularização À = 1. 

(e) Repita os cálculos descritos na parte (a) para m, = 10 centros (selecionados aleatoria- 
mente). 

(d) Com base nos seus resultados, discuta o mérito da seleção aleatória de centros como 
um método para o projeto de redes RBF e o papel da regularização no desempenho da 
rede como um classificador de padrões. 

(e) Compare seus resultados com aqueles apresentados na Seção 5.13 que foram calcula- 
dos usando o método da interpolação estrita, Em particular, confirme que a seleção 
aleatória de centros é relativamente insensível ao parâmetro de regularização. 

Pode-se argumentar que no caso do experimento descrito na Seção 5.13 envolvendo a 

classificação de um par de classes com distribuição gaussiana, a rede RBF lá considerada 

tem um bom desempenho porque usa funções de base radial gaussianas para aproximar as 
distribuições condicionais gaussianas de classe subjacentes. Neste problema, utilizamos 
um experimento computacional para explorar o projeto de uma rede RBF gaussiana para 
interpolação estrita para distribuições condicionais de classe distintamente descontinuas. 

Especificamente, considere duas classes equiprováveis €, e €. cujas distribuições 

e UE) onde € à {1 é um circulo de raio r = 2,34 centrado em x, = [-2, 30]" 

. UE) onde €, c R? é uma região quadrada centrada em x. com comprimento de lado 
rim 

Aqui UA) representa uma distribuição uniforme sobre £2 c EZ. Estes parâmetros são 

escolhidos de modo que a região de decisão para a classe 6, seja a mesma que no caso da 

distribuição gaussiana considerada na Seção 5.13. Investigue o uso de regularização como 
um meio de melhorar o desempenho de classificação de uma rede RBF gaussiana usando 
interpolação estrita. 


CAPÍTULO 6 


Måquinas de Vetor de Suporte 


6.1 INTRODUÇÃO 


No Capitulo 4, estudamos os perceptrons de multiplas camadas treinados com o algoritmo de 
retropropagação. No Capítulo 5, estudamos uma outra classe de redes em camadas alimentadas 
adiante, as redes de função de base radial. Ambas estas redes neurais são aproximadores universais 
a seu próprio modo. Neste capítulo, discutimos uma outra categoria de redes alimentadas adiante 
universais, conhecidas como máquinas de vetor de suporte (MFS), propostas por Vapnik (Boser, 
Guyon e Vapnik, 1992; Cortes e Vapnik, 1995; Vapnik, 1995, 1998). Como os perceptrons de mül- 
tiplas camadas e as redes de função base radial, as máquinas de vetor de suporte podem ser usadas 
para classificação de padrões e regressão linear. 

Basicamente, a máquina de vetor de suporte é uma máquina linear com algumas propriedades 
muito interessantes. Para explicar como ela funciona, talvez seja mais fácil começar com o caso de 
padrões separáveis que podem surgir no contexto de classificação de padrões. Neste contexto, a 
idéia principal de uma máquina de vetor de suporte é construir um hiperplano como superficie de 
decisão de tal forma que a margem de separação entre exemplos positivos e negativos seja máxima. 
A máquina apresenta esta propriedade desejável seguindo uma abordagem fundamentada na teoria 
da aprendizagem estatística que é discutida no Capítulo 2. Mais precisamente, a máquina de vetor 
de suporte é uma implementação do metodo de minimização estrutural de risco, Este principio 
indutivo é baseado no fato de que a taxa de erro de uma máquina de aprendizagem sobre dados de 
teste (i.e, a taxa de erro de generalização) é limitada pela soma da taxa de erro de treinamento e por 
um termo que depende da dimensão de Vapnik- Chervonenkis (F-C} no caso de padrões separäveis, 
uma máquina de vetor de suporte produz um valor de zero para o primeiro termo e minimiza o 
segundo termo. Conseqúentemente, à máquina de vetor de suporte pode fornecer um bom desempe- 
nho de generalização em problemas de classificação de padrões, apesar do fato de que ela ado 
incorpora conhecimento do domínio do problema. Este atributo é único das máquinas de vetor de 
suporte. 

Uma noção que é central à construção do algoritmo de aprendizagem por vetor de suporte é o 
nücleo do produto interno entre um “vetor de suporte” x, e o vetor x retirado do espaço de entrada. 
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Os vetores de suporte consistem de um pequeno subconjunto dos dados de treinamento extraido 
pelo algoritmo. Dependendo de como este núcleo de produto interno é gerado, podemos construir 
diferentes máquinas de aprendizagem, caracterizadas por superficies de decisão não-lincares, prò- 
prias. Em particular, podemos usar o algoritmo de aprendizagem por vetor de suporte para construir 
os três seguintes tipos de máquinas de aprendizagem (entre outros): 


e Máquinas de aprendizagem polinomial 
+. Redes de função de base radial 
+ Perceptrons de duas camadas (i.e., com uma única camada oculta) 


Isto é, para cada uma dessas redes alimentadas adiante podemos usar 0 algoritmo de aprendizagem 
por vetor de suporte para implementar o processo de aprendizagem, usando um determinado con- 
junto de dados de treinamento, determinando automaticamente o número necessário de unidades 
ocultas. Dito de outra forma: enquanto que o algoritmo de retropropagação é planejado especifica- 
mente para treinar um perceptron de múltiplas camadas, o algoritmo de aprendizagem por vetor de 
suporte é de natureza mais genérica, porque tem uma aplicabilidade mais ampla. 


Organização do Capítulo 


O corpo principal do capitulo está organizado em três partes. Na primeira parte, descrevemos as 
idéias básicas por trás de uma máquina de vetor de suporte. Especificamente, na Seção 6.2 discuti- 
mos a construção de hiperplanos ótimos para o caso simples de padrões lincarmente separáveis. À 
seguir, na Seção 6.3, considera-se o caso mais dificil de padrões náo-separáveis. 

Dessa forma, preparamos o caminho para а segunda parte do capítulo, que apresenta uma 
discussão detalhada da máquina de vetor de suporte para resolver tarefas de reconhecimento de 
padrões. Isso é feito na Seção 6.4. Na Seção 6.5, revisitamos o problema do ЖОК. para ilustrar a 
construção de uma máquina de vetor de suporte. Na Seção 6.6, revisitamos o experimento 
computacional sobre classificação de padrões que foi estudado nos Capitulos 4 e 5, fornecendo 
assim uma avaliação comparativa das máquinas de vetor de suporte com os perceptrons de múlti- 
plas camadas treinados com o algoritmo de retropropagação e com as redes de função de base 
radial. 

A última parte do capítulo trata do problema da regressão não-linear. Na Seção 6.7 descreve- 
mos uma função de perda que é bem adequada para este problema. Então, na Seção 6.8, discutimos 
a construção de uma máquina de vetor de suporte para regressão não-linear. 

O capítulo conclui com algumas considerações finais na Seção 6.9. 


6.2 HIPERPLANO ÓTIMO PARA PADRÕES 
LINEARMENTE SEPARÁVEIS 


Considere uma amostra de treinamento ((x,,d JP”. onde x, é o padrão de entrada para o i-ésimo 
exemplo e d, é a resposta desejada correspondente (saida-alvo). Para começar, assumimos que o 
padrão (classe) representado pelo subconjunto d = +1 e o padrão representado pelo subconjunto d, 
=-1 são “linearmente separáveis”, À equação de uma superficie de decisão na forma de um hiperplano 
que realiza esta separação é 


wx+b=0 (6.1) 
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onde x é um vetor de entrada, w é um vetor peso ajustável e 5 é um bias. Podemos assim escrever 


w'x, *bz рага й = +1 (6.2) 
wx,+b<0 parad,--l 


A pressuposição de padrões linearmente separáveis é feita aqui para explicar a idéia básica por trás 
de uma máquina de vetor de suporte em um cenário bastante simples; esta pressuposição será rela- 
xada na Seção 6,3. 

Para um dado vetor peso de w e bias 5, a separação entre o hiperplano definido na Ea. (6.1) e 
o ponto de dado mais próximo é denominada a margem de separagdo, representada por p. O objetivo 
de uma máquina de vetor de suporte é encontrar o hiperplano particular para o qual a margem de 
separação p é máxima. Sob esta condição, a superficie de decisão é referida como o hiperplano 


ойто. A Figura 6.1 ilustra à construção geométrica de um hiperplano ótimo para um espaço de 
entrada bidimensional. 


FIGURA 6.1 Ilustração da idèia 
de um hiperplano ótimo para 
padrões linearmente separáveis 





Considere que w, e b representem os valores ótimos do vetor peso e do bias, respectivamente. 
Conseqüentemente, o hiperplano dtimo, representando uma superficie de decisão linear 
multidimensional no espaço de entrada, é definido por 


wx+b,=0 (6.3) 
o que é a Eq. (6.1) rescrita. A função discriminante 
g(x)z wIx- b, (6.4) 


fornece uma medida algébrica da distáncia de x até o hiperplano (Duda e Hart, 1973). Talvez o 
modo mais fácil de ver isto seja expressar x como 
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W 
х= х, + al 
Inl 


onde x, é a projeção normal de x sobre o hiperplano ótimo, e r é a distância algébrica desejada, r é 
positivo se x estiver no lado positivo do hiperplano ótimo e negativo se x estiver no lado negativo. 
Como, por definição, g(x.) = 0, resulta que 


р(х) = wx +% = rlw. 


Du 
= #(%) 
i lw, | (e 


Em particular. a distância da origem (1.e., x = 0) até o hiperplano ótimo é dada por b | w ||. Seb > 
0, a origem está no lado positivo do hiperplana ótimo; se b. < 0, ela está no lado negativo. Se b. = 0, 
o hiperplano ótimo passa pela origem. Uma interpretação geometrica destes resultados algébricos € 
dada na Fig. 6.2. 


Ea 


x 
b, >> 
БАЈ 
Hiperplano 
ma FIGURA 6.2 Interpretação 


geométrica das distâncias 
algébricas de pontos até o 
hiperplano ótimo para um 

caso bidimensional 





А questão a resolver é encontrar os parámetros w e ^. para o hiperplano ótimo, dado o conjun- 
to de treinamento I = f(x, d). Com base nos resultados retratados na Fig. 6.2, vemos que o par 
(м, b ) deve satisfazer a restrição: 

w.x,-5 21 parad =+l 


“ Li 


г 
7 (6.6) 
w,x,+b,£-1 para dl, =—] 


Note que se a Eq. (6.2) for válida, isto é, os padrões forem linearmente separáveis, podemos sempre 
escalar w, eh, de modo que a Eq. (6.6) seja válida; esta operação de escalamento não afeta a Eq. (6.3). 

Os pontos de dados particulares (x, а) para os quais a primeira ou a segunda linha da Eq. (6.6) 
é satisfeita com o sinal de igualdade são chamados de vetores de suporte, por isso o nome “máquina 
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de vetor de suporte”. Estes vetores desempenham um papel proeminente na operação desta classe 
de máquinas de aprendizagem. Em termos conceituais, os vetores de suporte são aqueles pontos de 


dados que se encontram mais próximos da superficie de decisão e são, portanto, os mais dificeis de 
classificar. Dessa forma, têm uma influência direta na localização ótima da superficie de decisão. 


Considere um vetor de suporte x” para o qual "= +1. Então, por definição, temos 
а(х) 2 wx" Th FI рага d'” = Ғ1 (6.7) 


Da Eq. (6.5) a distância algébrica do vetor de suporte x" até o hiperplano ótimo é 














я " ex") 
|w, 
mS se А?! = +] (6.8) 
с w‚l 
Б sed =-] 











onde o sinal positivo indica que x" se encontra no lado positivo do hiperplano ótimo e o sinal 
negativo indica que x” está no lado negativo do hiperplano ótimo. Considere que p represente o 
valor ótimo da margem de separação entre as duas classes que constituem o conjunto de treinamen- 
to T, Então, da Eq. (6.8) resulta que 


p=år 


. 2 (6.9) 
м. | 


А Equação (6.9) afirma que maximizar a margem de separação entre classes é equivalente а minimizar 
a norma euclidiana do vetor peso w. 

Em resumo, o hiperplano ótimo definido pela Eq. (6.3) é único no sentido de que o vetor peso 
w, fornece a máxima separação possível entre exemplos positivos e negativos. Esta condição ótima 
é alcançada minimizando-se a norma euclidiana do vetor peso w. 


Otimização Quadrática para Encontrar o Hiperplano Ótimo 


Nosso objetivo é desenvolver um procedimento eficiente do ponto de vista computacional para, 
utilizando a amostra de treinamento Y = [(x sa; encontrar o hiperplano ótimo, sujeito à restri- 
ção 


d(w"x,+b)21 parai=1,2,.,N (6.10) 
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Esta restrição combina as duas linhas да Eq. (6.6) сот w usado no lugar de w . 
O problema de otimização restrito que temos que resolver pode agora ser formulado como: 


N dor ï 
Dada a amostra de treinamento (xd, ) n encanire os valores ótimos do vetor peso w e bias b de 


modo que satisfaçam as restrições 
diw, + 5b)2]1 parais 1, Zen N 
е o vetor peso W minimize a função de custo. 


1 
Ф(ж) == ww 
O fator de escala 1/2 é incluido aqui por conveniência de apresentação, Este problema de otimização 
restrito é chamado de problema primordial, Ele é caracterizado como segue: 


+ A função de custo D(w) é uma função convexa! de W. 
в Ås restrições são lineares em relação а w. 


Conseqüentemente, podemos resolver o problema de otimização restrito usando o método dos 
multiplicadores de Lagrange (Bertsekas, 1995). 
Primeiro, construímos a função lagrangiana: 


Jew b.e) ww Y ad wn, +0) (6.11) 


onde as variáveis auxiliares não-negativas a, são chamadas de multiplicadores de Lagrange. A 
solução para o problema de otimização restrito é determinada pelo ponto de sela da função lagrangiana 
J(w, b, 01), que deve ser minimizada em relação a we a 4; ela também tem que ser maximizada em 
relação a б. Assim, diferenciando J(w, $, ot} em relação a w e a he igualando os resultados a zero, 
obtemos as duas seguintes condições de otimização: 


Condição I: umd) q 
u 

Condição 2: S050 y 
dh 


А aplicação da condição de otimização 1 à função lagrangiana da Eq. (6.11) produz (após 
remanejamento de termos) 


W= Yadx, (6.12) 


A aplicação da condição de otimização 2 à função lagrangiana da Eq. (6.11) produz 
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Yad, =0 (6.13) 


O vetor solução w é definido em termos de uma expansão que envolve os N exemplos de treinamen- 
to. Note, entretanto, que, embora esta solução seja única em virtude da convexidade da lagrangiana, 
o mesmo não pode ser dito sobre os coeficientes de Lagrange, ct. 

Também é importante notar que no ponto de sela, para cada multiplicador de Lagrange ct, o 
produto daquele multiplicador pela sua restrição correspondente desaparece, como mostrado por 


a, [d(w'x +5)-1]=0 parai=1, 2, N (6.14) 


Dessa forma, apenas aqueles multiplicadores que satisfazem exatamente a Eq. (6.14) podem assu- 
mir valores näo-nulos. Esta propriedade resulta das condições de Kuhn-Tucker da teoria da otimização 
(Fletcher, 1987; Bertsekas, 1995). 

Como notado anteriormente, o problema primordial lida com uma função de custo convexa e 
com restrições lineares. Dado um problema de otimização restrito como este, é possivel construir 
um outro problema chamado de problema dual. Este segundo problema tem o mesmo valor ótimo 
do problema primordial, mas com os multiplicadores de Lagrange fornecendo a solução ótima. Em 
particular, podemos formular o seguinte teorema da dualidade (Bertsekas, 1905): 


(a) Se o problema primordial tem uma solução ótima, então o problema dual também tem uma 
solução ótima, e os valores ótimos correspondentes são iguais, 

(b) Para que w seja uma solução primordial ótima e ot, seja uma solução dual ótima, é necessário e 
suficiente que w seja realizävel para o problema primordial, е 


Фү) = Лб, 0, у= minJ(w,b5 a.) 


Para postular o problema dual para o nosso problema primordial, primeiro expandimos a Eq. (6.11), 
termo a termo, como segue: 


Jbz wW- айм Y Yad Ye, (6.15) 


O terceiro termo no lado direito da Eq. (6.15) é zero em virtude da condição de otimização da Eq. 
(6.13). Além disso, da Eg. (6.12) temos 


wwz У odes, = УУ Y ao dd xx, 


iml fal pul 


Conseqüentemente, fazendo a função objetivo Mw, Ё, a) = Qla), podemos reformular a Eq. (6.15) 
como 


Фа) = Ya -1$ Yaa, да хіх, (6.16) 


fæl fu] 
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onde os q são não negativos. 
Podemos agora formular o problema dual: 


Dada a amostra de treinamento (Ux, d, NN p encontre os multiplicadores de Lagrange la Y а QUE 
maximizam a função objetivo 


E NN 
1 r 
Q)z 20 -= аб ddr 
sujeita as restrições 


Y ud m) 


(2) 0,20 ратаі = І, 2,., N 


Note que o problema dual é formulado inteiramente em termos dos dados de treinamento. Além 
disso, a função Of) a ser maximizada depende apenas dos padrões de entrada na forma de um 
conjunto de produtos escalares, lx X de AS 

Havendo determinado os multiplicadores de Lagrange ótimos, representados por & pode- 
mos calcular o vetor peso ótimo w usando a Eq. (6.12) e assim escrever 


= ada x, (6.17) 


Para calcular o bias ótimo 5 , podemos usar o w assim obtido € tirar vantagem da Eq. (6.7) relativa 
ao vetor de suporte positivo, € assim escrever 


b, 21-wIx" рага 0 =] (6.18) 


Propriedades Estatísticas do Hiperplano Ótimo 


Da teoria estatística da aprendizagem apresentada no Capítulo 2, relembramos que a dimensão V-C 
de uma máquina de aprendizagem determina o modo como uma estrutura aninhada de funções 
aproximativas deve ser usada. Também relembramos que a dimensão V-C de um conjunto de 
hiperplanos de separação em um espaço de dimensionalidade m é igual a m + 1. Entretanto, para 
aplicarmos o método da minimização estrutural de risco, descrito no Capítulo 2, precisamos cons- 
truir um conjunto de hiperplanos de separação de dimensão V-C variável tal que o risco empírico 
(ie, o erro de classificação de treinamento) e a dimensão V-C sejam minimizados ao mesmo tem- 
po. Em uma máquina de vetor de suporte é imposta uma estrutura sobre o conjunto de hiperplanos 
de separação restringindo a norma euclidiana do vetor peso w. Especificamente, podemos formular 
o seguinte teorema (Vapnik, 1995, 1998): 


Considere que D represente o diâmetro da menor esfera contendo todos os vetores de entrada x, x 
x,. O conjunto de hiperplanos ótimos descrito pela equação 


wx +% = 0 
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tem uma dimensão V-C A limitada acima por 


‚ [| EX 
As mim | — |, 4+ 1 
ШЕ 619) 


onde o sinal de máximo! - | representa o menor inteiro maior que ou igual ao número abrangido por ele, pé a 
margem de separação igual a 2/||w || e m, é a dimensionalidade do espaço de entrada. 


Este teorema nos diz que podemos exercer controle sobre a dimensão VC (1.е., a complexidade) do 
hiperplano ótimo, independentemente da dimensionalidade m, do espaço de entrada, escolhendo 
adequadamente a margem de separação p. 

Suponha então que temos uma estrutura aninhada descrita em termos dos hiperplanos de sepa- 
ração como segue: 


& = wx +h: jw Sc}, k= 1,2... (6.20) 


Em virtude do limite superior h da dimensão VC definido na Eq. (6.19), a estrutura aninhada deseri- 
ta na Eq. (6.20) pode ser reformulada em termos das margens de separacáo na forma equivalente 





2 
$, = I5 Lp? zi k=1,2,... (6.21) 


Os a, e c, são constantes. 

Do Capitulo 2 também relembramos que, para obter uma boa capacidade de generalização, 
devemos selecionar a estrutura particular com a menor dimensão V-C e erro de treinamento, de 
acordo com o princípio da minimização estrutural de risco. Das Eqs. (6.19) e (6.21) vemos que esta 
exigência pode ser satisfeita usando-se o hiperplano ótimo (1.&., o hiperplano de separação com a 
maior margem de separação p). Equivalentemente, considerando a Eq. (6.9), devemos usar o vetor 
peso ótimo w, tendo a norma euclidiana minima. Assim, a escolha do hiperplano ótimo como a 
superficie de decisão para um conjunto de padrões linearmente separáveis não é apenas intuitiva- 
mente satisfatório, mas também está em completo cumprimento do principio de minimização estru- 
tural de risco de uma máquina de vetor de suporte. 


6.3 HIPERPLANO ÓTIMO PARA PADRÕES NÃO-SEPARÁVEIS 


A discussão até agora enfocou padrões linearmente separáveis. Nesta seção, consideramos o caso 
mais dificil de padrões não-separáveis. Dado um conjunto de dados de treinamento como este, não 
é possível construir um hiperplano de separação sem nos defrontarmos com erros de classificação. 
Apesar disso, desejamos encontrar um hiperplano ótimo que minimize a probabilidade de erro de 
classificação, calculada como a média sobre o conjunto de treinamento. 

Diz-se que a margem de separação entre classes é suave se um ponto de dado (x, d) violar a 
seguinte condição (veja a Eq. (6.10)): 


diwx +b)2+l, — i-1,2..N 


Esta violação pode surgir de duas formas: 
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+ Oponto de dado (x, d) se encontra dentro da região de separação, mas do lado correto da 
superficie de decisão, como ilustrado na Fig. 6.3a. 





ae 
ge 
Vetores 
de sapore 
Punto Ponta 
de dado de dada 


FIGURA 6.3 (a) O ponto de dado x, (pertencente à classe 4 | se encontra dentro da região de separação, mas по 
lado comelo da superficie de decisão. (b) O ponto de dado x, (pertencente а classe €) se encontra no lado errado 
da superficie de decisão 


* Oponto de dado (x, d) se encontra no lado errado da superficie de decisão, como ilustrado 
na Fig. 6.3b. 


Note que temos uma classificação correta no caso |, mas uma classificação incorreta no caso 2. 

Para preparar o terreno para um tratamento formal para o caso de pontos de dados não-separá- 
veis, introduzimos um novo conjunto de variáveis escalares não negativas, IE, ү, „na definição do 
hiperplano de separação (i.e., superficie de decisão) como mostrado aqui: 


d(w'x + b)yzl-E, і= 1,2... N (6.22) 


As É são chamadas de variáveis soltas, medem o desvio de um ponto de dado da condição ideal de 
separabilidade de padrões. Para 0 © 5 = 1, o ponto de dado se encontra dentro da região de separa- 
ção, mas no lado correto da superficie de decisão, como ilustrado na Fig. 6.3a. Para & > 1, ele se 
encontra no lado errado do hiperplano de separação, como ilustrado na Fig. 6.3b. Os vetores de 
suporte são aqueles pontos de dados particulares que satisfazem a Eq. (6.22) precisamente, mesmo 
se É > 0, Note que se um exemplo com & > O for deixado de fora do conjunto de treinamento, а 
superficie de decisão nào muda. Assim, os vetores de suporte são definidos exatamente do mesmo 
modo tanto para o caso linearmente separável como para o caso náo-separável, 

O nosso objetivo é encontrar um hiperplano de separação para o qual o erro de classificação, 
como média sobre o conjunto de treinamento, é minimizado, Podemos fazer isto minimizando o 
funcional 


dD(E)= $ NE -1) 


em relação ao vetor peso w, sujeito à restrição descrita na Eq. (6.22) е a restrição sobre |||. A 
função /(E) é uma função indicadora, definida por 
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O set s0 


=| sc E» 0 


Infelizmente, a minimização de (É) em relação a w é um problema de otimização não-convexo 
que é NP completo. 


Para tornar o problema matematicamente tratável, aproximamos o funcional (É) escrevendo 
A 
D(E)= Y 
dal 


Além disso, simplificamos a computação formulando o funcional a ser minimizado em relação ao 
vetor peso w como segue: 


dw.) zw +CHE, (6.23) 


Como anteriormente, a minimização do primeiro termo dà Eq. (6.23) está relacionada com a 
minimização da dimensão V-C da máquina de vetor de suporte. Assim como para o segundo termo 
EE, ele é um limite superior para o número de erros de teste. A formulação da função de custo Hw, 
©) da Eq. (6.23) está, portanto, em perfeito acordo com o principio da minimização estrutural de 
riscQ. 

O parâmetro C controla o compromisso entre a complexidade da máquina e o número de 
pontos nào-separáveis; por isso, pode ser visto como uma forma de parámetro de “regularização”. 
O parâmetro C deve ser selecionado pelo usuário. Isto pode ser feito de duas formas: 


e Oparâmetro C é determinado experimentalmente através do uso padrão de um conjunto de 
treinamento/teste (validação), o que é uma forma grosseira de reamostragem. 
+ Ele é determinado analiticamente estimando a dimensão V-C através da Eq. (6.19) e então 
usando-se limites do desempenho de generalização da máquina baseados na dimensão V-C. 
De qualquer forma, o funcional D(w, É) é otimizado em relação а we Ea sujeito à restrição 
descrita na Eq. (6.22) e E > 0. Fazendo isso, a norma quadrada de w é tratada como uma quantidade 
a ser minimizada simultaneamente em relação aos pontos não-separáveis, e não como uma restrição 
imposta sobre a minimização do número de pontos não-separáveis. 

O problema de otimização para padrões não-separáveis assim formulado inclui o problema de 
otimização para padrões linearmente separáveis como um caso especial, Especificamente, fazer É = 
О para todo ¡nas Eqs. (6.22) e (6.23) as reduz às formas correspondentes para o caso linearmente 
separável. 

Podemos agora formalizar o problema primordial para o caso não-separável como: 

E 


Dada а amostra de treinamento xd, )] 
de modo que satisfacam à restrição 


encontre os valores ótimos do vetor peso w e do bias b 


d(wx+b)21-E, para i  1,2,...N 


5,20 рага todo 
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e de modo que o vetor peso w e as variáveis soltas E minimizem o funcional de custo 


1 4 
b(w,E)= ;"" + CHE 
rel 
onde C é um parâmetro positivo especificado pelo usuário. 


Usando o método dos multiplicadores de Lagrange e procedendo de maneira similar à descrita na 
Seção 6.2, podemos formular o problema dual para padrões não-separáveis como (veja o Problema 
6.3): 
Dada a amostra de treinamento MERC ур, encontre os multiplicadores de Lagrange la} que 
maximizam a função objetivo 


у X 


Oo) = Sa, - > Y ouo did x;x, 
ixl 


del ¿ul 
sujeita ds restrições 


x 
(1) Y nd =0 
(2) 050 £C paaim1,2,.,N 


onde C é um parámetro positivo especificado pelo usudria. 


Note que nem as variáveis soltas É nem os multiplicadores de Lagrange aparecem no problema 
dual. O problema dual para o caso de padrões não-scparáveis é dessa forma similar áquele para o 
caso simples de padrões linearmente separáveis exceto por uma diferença pequena mas importante. 
A função objetivo Otoó) a ser maximizada é a mesma em ambos os casos. O caso não-separável 
difere do caso separável pelo fato de que a restrição о 2 0 é substituida pela restrição mais rigorosa 
0 & a £ C. Exceto por esta modificação, a otimização restrita para o caso não-separável e os cálcu- 
los dos valores ótimos do vetor peso w e do bias b procedem do mesmo modo como no caso 
linearmente separävel. Note também que os vetores de suporte são definidos exatamente do mesmo 
modo como anteriormente, 
A solução ótima para o vetor peso w é dada por 


Ma 
Ww, у a, dx (6.24) 


onde N é o número de vetores de suporte. À determinação dos valores ótimos do bias também 
segue um procedimento similar ao descrito anteriormente. Especificamente, as condições de Kuhn- 
Tucker são agora definidas por 


O, [d(w'x -5b-1*5]-0, i-21,2.., № (6.25) 


4E=0, i=1,2..N (6.26) 
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A Equação (6.25) é uma forma reserita da Eq. (6.14), exceto pela substituição do termo da unidade 
por (1-4). Como na Eq. (6.26), os u, são multiplicadores de Lagrange que foram introduzidos para 
forçar a nào-negatividade das variáveis soltas 5 para todo 1, No ponto de sela, a derivada da função 
lagrangiana para o problema primordial em relação à variável solta & é zero, produzindo 


& tu-C (6.27) 
Combinando as Eqs. (6.26) e (6.27), vemos que 
5-0 se a «C (6.28) 


Podemos determinar о bias ótimo 5, tomando qualquer ponto de dado (x , d) do conjunto de treina- 
mento para o qual temos 0 <a, < C e com isso & = 0, e usando este ponto de dado na Eq. (6.25). 
Entretanto, de uma perspectiva em umérica, é melhor tomar o valor médio de Б resultante de todos 
estes pontos de dados da amostra de treinamento (Burges, 1998). 


6.4 COMO CONSTRUIR UMA MÁQUINA DE VETOR 
DE SUPORTE PARA RECONHECIMENTO DE PADRÕES 


Tendo em mãos o material sobre como encontrar o hiperplano ótimo para padrões não-separáveis, 
podemos agora descrever formalmente a construção de uma máquina de vetor de suporte para uma 
tarefa de reconhecimento de padrões, 

Basicamente, a idéia de uma máquina de vetor de suporte” depende de duas operações mate- 
máticas resumidas aqui e ilustradas na Fig. 6.4: 





Espiga de 
caracteristicas 


FIGURA 6.4 Мара não-linear qi) do espaço 


Espaço de Br 
entrada (dados) de entrada para o espaço de caracteristicas 


1. O mapeamento não-linear de um vetor de entrada para um espaço de caracteristicas de alta 
dimensionalidade, que é oculto da entrada e da saida. 
2. A construção de um hiperplano ótimo para separar as características descobertas no passo |. 


A razão para cada uma destas duas operações é explicada a seguir. 
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A operação ] é realizada de acordo com o teorema de Cover sobre a separabilidade de pa- 
drões, que é discutido no Capítulo 5. Considere um espaço de entrada constituido de padrões não- 
linearmente separaveis. O teorema de Cover afirma que este espaço multidimensional pode ser 
transformado em um novo espaço de caracteristicas onde os padrões são linearmente separáveis 
com alta probabilidade, desde que duas condições sejam satisfeitas. Primeiro, a transformação é 
não-linear. Segundo, a dimensionalidade do espaço de caracteristicas é suficientemente alta. Estas 
duas condições são incorporadas na operação 1. Note, entretanto, que o teorema de Cover não 
discute se o hiperplano de separação é ótimo. Е apenas pelo uso de um hiperplano de separação 
ótimo que a dimensão V-C é minimizada e a generalização é alcançada. 

É nesta última questão que entra a segunda operação. Especificamente, a operação 2 explora a 
idéia de construir um hiperplano de separação ótimo de acordo com a teoria descrita na Seção 6.3, 
mas com uma diferença fundamental: o hiperplano de separação é agora definido como uma função 
linear de vetores retirados do espaço de caracteristicas em vez do espaço de entrada original. O mais 
importante é que a construção deste hiperplano é realizada de acordo com o principio da minimização 
estrutural do risco que é fundamentada na teoria da dimensão V-C. A construção depende do cálculo 
do núcleo de um produto interno. 


Núcleo do Produto Interno 


Considere que x represente um vetor retirado do espaço de entrada, que é assumido como tendo 
dimensão m,. Considere que lo, wor., represente um conjunto de transformações não-lineares do 
espaço de entrada para o espaço de Características: m, é a dimensão do espaço de caracteristicas, 
Assume-se que qx) é definido a priori para todo j. Dado este conjunto de transformações não- 
lineares, podemos definir um hiperplano atuando como a superficie de decisão como segue: 


Y wap, (1)+b=0 (6.29) 
rel 


н 
onde аш, 1 representa um conjunto de pesos lineares conectando o espaço de caracteristicas com 


о espaço de saída, e béo bias. Podemos simplificar o desenvolvimento escrevendo 


у w9,(x)=0 (6.30) 


geeld 


onde foi assumido que ip (x) = 1 para todo x, de modo que tt, represente o bias ^. À Equação (6.30) 
define a superficie de decisão calculada no espaço de características em termos dos pesos lineares 
da máquina, А quantidade pix) representa a entrada fornecida ao peso w, através do espaço de 
caracteristicas. Defina o vetor 


ф(х) =[0,00.9,(0)....9., 09] (6.31) 
onde, por definição, temos 


ф(х) = I para todo x (6.32) 
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Na verdade, o vetor ф(х) representa a “imagem” induzida no espaço de caracteristicas pelo vetor de 
entrada x, como ilustrado na Fig. 6.4. Assim, em termos desta imagem, podemos definir a superficie 
de decisão na forma compacta: 


w'gix) = 0 (6.33) 


Adaptando а Ед. (6.12) à nossa presente situação envolvendo um espaço de caracteristicas onde 
procuramos agora a separabilidade “lincar” de caracteristicas, podemos escrever 


w= adya) (6.34) 


onde o vetor de caracteristicas Фіх) corresponde ao padrão de entrada x, no i-ésimo exemplo. 
Dessa forma, substituindo a Eq. (6.34) em (6.33), podemos definir a superficie de decisão calculada 
no espaço de caracteristicas como: 


"= Y adg'(x)0oàx)-0 (6.35) 


fæ] 
O termo gix Mp(x) representa o produto interno de dois vetores induzidos no espaço de caracteris- 


ticas pelo vetor de entrada x e o padrão de entrada x, relativo ao i-ésimo exemplo. Podemos então 
introduzir o núcleo do produto interno representado por Kix, x) e definido por 


К(х,х,)=ф'(х)ф(х,) 
S (6.36) 
= Y o(x)p,(x) рагаѓ=1,2,...„№ 


Ju 


Desta definição vemos imediatamente que o núcleo do produto interno é uma função simétrica de 
seus argumentos, como mostrado por 


Kix, x) = lx, x) para todo i (6.37) 


O mais importante é que podemos usar o núcleo do produto interno K(x, x.) para construir o hiperplano 
ótimo no espaço de caracteristicas sem ter que considerar o próprio espaço de características de 
forma explicita. Isto é visto facilmente usando-se a Eq. (6.36) em (6.35), de onde resulta que o 
hiperplano é agora definido por 


Y aud K(x,x,) = 0 (6.38) 
fæl 


O Teorema de Mercer 


А expansão da Eq. (6.36) para o núcleo do produto interno A(x, x.) é um caso especial importante do 
teorema de Mercer que aparece na análise funcional. Este teorema pode ser formalmente formulado 
como (Mercer, 1908; Courant e Hilbert, 1970): 
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Seja Kix, x’) um núcleo simétrico e continuo que é definido no intervalo fechado a € x € b e da 
mesma forma para x'. O núcleo Kix, x’) pode ser expandido na serie 


K(x,X') = Y ф(х)ф бх") (6.39) 


com coeficientes positivos А, > O para todo i. Para esta expansão ser válida e para convergir absoluta 
e uniformemente, é necessário e suficiente que a condição 


| | K(x,x hb x nb( x dada 20 
bol b 


seja válida para todo (+) para o qual 


| vreden 


hi 


As funções q (x) são chamadas autofungóes da expansão e os números A, são chamados autovalores, 
O fato de que todos os autovalores são positivos significa que o núcleo Kix, x") é definido positiva- 
mente. 

Com base no teorema de Mercer, podemos agora fazer as seguintes observações: 


e Para Å z 1, а -êsima imagem vig, (x) induzida no espaço de caracteristicas pelo vetor de 
entrada x é uma auto função da expansão. 


* Teoricamente, a dimensionalidade do espaço de caracteristicas (1.e., o número de autovalores 
/ autofunções) pode ser feita infinitamente grande. 


O teorema de Mercer apenas nos diz se um núcleo candidato é realmente um núcleo de produto 
interno em algum espaço, e portanto admissível para uso em uma máquina de vetor de suporte, ou 
não. Entretanto, ele não diz nada sobre como construir as funções фіху; nós mesmos temos que 
fazer isto sozinhos. 

Da equação de definição (6.23), vemos que a máquina de vetor de suporte inclui uma forma de 
regularização em um sentido implicito. Em particular, o uso de um núcleo K(x, x) definido de 
acordo com o teorema de Mercer corresponde à regularização com um operador D tal que o núcleo 
Kix, x^ éa função de Green de DD, onde Déo adjunto de D (Smola e Schölkopf, 1998). A teoria 
da regularização é discutida no Capitulo 5. 


Projeto Ótimo de uma Máquina de Vetor de Suporte 


A expansão do núcleo de produto interno K(x, x.) na Eq. (6.36) nos permite construir uma superficie 
de decisão que é não-linear no espaço de entrada, mas cuja imagem no espaço de caracteristicas é 
linear. Com base nesta expansão, podemos agora formular a forma dual para a otimização restrita 
de uma máquina de vetor de suporte como segue: 


: ^ T № 
Dada а amostra de treinamento (Ux od, H p encontre os multiplicadores de Lagrange la, E, que 
marimizam ea função objetivo 
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Qa) = Sa, LY aa dd K(x,.x,) (6.40) 


tel In jal 


sujeitos às restrições: 


(1) Vad =0 


(2 00 sCpamai=l,2...,N 
onde C é um parámetro positivo especificado pelo usuário. 


Note que a restrição (1) surge da otimização do lagrangiano Q(a) em relação ao bias 5 = w, para 
lx) = 1. О problema dual formulado tem a mesma forma como no caso de padrões não-separáveis 
considerados na Seção 6.3, exceto pelo fato de que o produto interno 11, usado lá foi substituido 
pelo núcleo do produto interno K(x,, x). Podemos ver Kix, x) como o elemento ij de uma matriz 
simétrica N-por-N K, como mostrado por 


к= [K(x,, x "a (6.41) 


ыч! 


Tendo encontrado os valores ótimos dos multiplicadores de Lagrange, representados por at, , pode- 
mos determinar o valor ótimo correspondente do vetor linear de peso, w , que conecta o espaço de 
caracteristicas ao espaço de saida adaptando a fórmula da Eq. (6.17) à nova situação. Especifica- 
mente, reconhecendo que a imagem q{x,) desempenha o papel de entrada para o vetor peso w, 
podemos definir w, como 


“= - Ўв. аео) (6.42) 


onde g(x) ё a imagem induzida no espaço de caracteristicas devido a x . Note que a primeira com- 
ponente de w, representa o bias ótimo b. 


Exemplos de Máquina de Vetor de Suporte 


A exigência sobre o núcleo A(x, x ) é que ele satis faça o teorema de Mercer. Entretanto, dentro desta 
exigência existe alguma liberdade em como ele é escolhido. Na Tabela 6.1, apresentamos resumida- 
mente os núcleos de produto interno para três tipos comuns de máquinas de vetor de suporte: a 
máquina de aprendizagem polinomial, a rede de função de base radial e o perceptron de duas cama- 
das. Devemos notar os seguintes pontos: 


1. Os núcleos de produto interno para as máquinas de vetor de suporte dos tipos polinomial e 
função de base radial sempre satisfazem o teorema de Mercer. Em contrapartida, o núcleo de 
produto interno para a máquina de vetor de suporte do tipo perceptron de duas camadas sofre 
alguma restrição, como indicado na última linha da Tabela 6.1. Isto mostra que determinar se 
um dado núcleo satisfaz ou não o teorema de Mercer pode ser uma questão dificil; veja o 
Problema 6.8. 
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TABELA 6.1 Resumo dos Núcleos de Produto Interno 


Tipo de máquina Núcleo de produto interno 

de vetor de suporte Кх, x), i= 1,2, N Comentários 

Máquina de aprendizagem A potência p é especificada 

polinomial (ж?к + Ту a priori pelo usuário 

г] 2 

Rede de função de base radial EXP, Frl x, | A largura a^, comum a todos 
os núcleos, é especificada a 
priori pelo usuário 

Perceptron de duas camadas tanbih х E + В) O teorema de Mercer é sa- 


tisfeito apenas para alguns 
valores de В. е В, 


2. Para todos os três tipos de máguina, a dimensionalidade do espaço de caracteristicas ё determi- 
nada pelo número de vetores de suporte extraidos dos dados de treinamento pela solução do 
problema de otimização restrito. 

3. A teoria fundamental de uma máquina de vetor de suporte evita a necessidade de heuristicas 
frequentemente usadas no projeto de redes de função de base radial e perceptrons de múltiplas 
camadas convencionais: 

e Na máquina de vetor de suporte do tipo função de base radial, o número de funções de base 
radial e seus centros são determinados automaticamente pelo número de vetores de suporte 
€ seus valores, respectivamente. 

e Na máquina de vetor de suporte do tipo perceptron de duas camadas, o número de neurónios 
ocultos e seus vetores de peso são determinados automaticamente pelo número de vetores 
de suporte e seus valores, respectivamente. 


A Figura 6.5 mostra a arquitetura de uma máquina de vetor de suporte, 

Independentemente de como uma máquina de vetor de suporte é implementada, ela difere da 
abordagem convencional para o projeto de um perceptron de múltiplas camadas de uma forma 
fundamental. Na abordagem convencional, a complexidade do modelo é controlada mantendo-se o 
número de características (Le, neurônios ocultos) pequeno. Por outro lado, a máquina de vetor de 
suporte oferece uma solução para o projeto de uma máquina de aprendizagem controlando a com- 
plexidade do modelo independentemente da dimensionalidade, como resumido aqui (Vapnik, 1995, 
1998): 


e O problema conceitual. A dimensionalidade do espaço (oculto) de características é feito 
propositadamente muito grande para possibilitar a construção de uma superficie de decisão 
na forma de um hiperplano naquele espaço. Para um bom desempenho de generalização, a 
complexidade do modelo é controlada pela imposição de certas restrições sobre a constru- 
ção do hiperplano de separação, que resulta na extração de uma fração dos dados de treina- 
mento como vetores de suporte, 

• О problema computacional. A otimização em umérica em um espaço de alta 
dimensionalidade sofre da maldição da dimensionalidade. Este problema computacional é 
evitado usando a noção de um núcleo de produto interno (definido de acordo com o teorema 
de Mercer) e resolvendo-se a forma dual do problema de otimização restrito formulado no 
espaço de (dados) entrada. 
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tamanho ama — produto intemo internos máquina de vetor de suporte 


6.5 EXEMPLO: O PROBLEMA DO XOR (REVISITADO) 


Para ilustrar o procedimento para o projeto de uma máquina de vetor de suporte, revisitamos o 
problema do XOR (OU Exclusivo) discutido nos Capitulos 4 e 5. A Tabela 6.2 apresenta um resumo 
dos vetores de entrada e respostas desejadas para os quatro estados possíveis. 


TABELA 6.2 O Problema do ХОН 


Vetor de entrada, x Resposta desejada, d 
(-1, -1) —| 
{—1,+1) +1 
[*1, -1) +] 
(FL, +1] =] 


Para prosseguirmos, considere (Cherkassky e Mulier, 1998) 
Kix, x) = (1 + x'x, P (6.43) 


Com х = [x,, x,]" e x, = [ep x,1*, podemos assim expressar o núcleo do produto interno K(x, x ) em 
termos de monómios de várias ordens como segue: 


Ka J= l+ riri + 2x x,x, x, xix,  21,X, + 2x,X, 
A imagem do vetor de entrada x induzida no espaço de caracteristicas é, portanto, deduzida como 


qix)- П. хг ахх, x2, Зх, 2x) 
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Similarmente, 


pix) = [xi 2x t d (2x 2x]. i=1,2,3,4 


712% 


Da Eq. (6.41) também constatamos que 


жы кы mn WS 


| 
Y 
| 
| 


— MR кш es 
Еур аа а ë 


А função objetivo para a forma dual ё portanto (veja a Eg. (6.40)) 


1 - 
(Ха) = 0 +0, +0, +0, - ; - Zer ot, – 201,02, + 20,0, 
+9@1 + 20,0, — 20,0, + 905 — 20,0, + 907) 


A otimização de Gio) em relação aos multiplicadores de Lagrange produz-se o seguinte conjunto 
de equações simultâneas: 


On, — 00, —0, +, =| 
-ü +90, à, -a, =] 
-0 +0, + 90, — 01, =] 


a, —0, — 0, +90, =1 


Assim, os valores ótimos dos multiplicadores de Lagrange são 


Este resultado indica que neste exemplo todos os quatro vetores de entrada EAN ¡+30 vetores de 
suporte. O valor ótimo de Q(a) é 








| 
Ola) = 4 
Correspondentemente, podemos escrever 
| à l 
pd 7, 
Ou 
| 
|м. |= —= 


MAQuiNAS DE VETOR DE SUPORTE 
Da Ед. (6.42) resulta que o vetor peso ótimo é 


w, = i-o) (,)- 9) 
1 1 


| 
1 | 
1 42 — ЕН] 4/2 
“н н ИКАН 
-a2| |—{2 /2 | 142 
iN | 42 val |42 
0 
0 
(A 
| ù 
Ü 
Ü 


O primeiro elemento de w indica que o bias Б é zero. 
O hiperplano ótimo é definido por (veja a Eq. (6.33)) 


w/p(x)-0 
Isto é, 
1 
х? 
| —] | 4 2x,x, 
0,0, —=,0,0,0 ; |=0 
vê X; 
2x, 
42x, 
que se reduz a 
-xr,-ü 
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A forma polinomial da máquina de vetor de suporte para o problema do KOR é mostrada na Fig. 
б.ба. Parax, 7x, --] ex, 7 x,— *1,a saida y = —] ,eparax,7—1,x,2*] ex, =+l ex, = –1, temos 


y 7-1. Assim, o problema do XOR é resolvido como indicado na Fig. 6.6b. 


6.6 EXPERIMENTO COMPUTACIONAL 


Neste experimento computacional, revisitamos o problema de classificação de padrões que estuda- 
mos nos Capitulos 4 e 5. O experimento envolveu a classificação de duas distribuições gaussianas 
superpostas rotuladas como 1 (classe € ) e 2 (Classe '€,). Os gráficos de espalhamento para estes 
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Como anteriormente, assume-se que ф(х) = 1, de forma que w representa o bias 5. A questão a ser 
resolvida é minimizar o risco empírico 


Rom = Y Lady) (6.48) 


sujeito á desigualdade 


ими? s c, (6.49) 


onde c, é uma constante. А função de perda insensível a e, L (d, v.) é definida como anteriormente 


na Eq. (6.45). Podemos reformular este problema de otimização restrito introduzindo dois conjun- 


WT : "E. ea] N x . 
tos de variáveis soltas nào-negativas [ E) e EH, que são definidas como: 


im] 


d-w'x)te*b, | i-L2..N (6.50) 
мх) еж, d=1,2,.,N (6.51) 
E >0, і= 1,20, № (6.52) 
E 20, і= 1,2... № (6.93) 


As variáveis soltas £ e §', descrevem a função de perda insensível a є definida na Eq. (6.45). Este 
problema de otimização restrito pode ser, portanto, visto como equivalente ao da minimização do 
funcional de custo 


E 
ow EE) C 2.6 ннн (6.54) 


sujeita ås restrições das Eqs. (6.50) a (6.53). Incorporando o termo w^w/2 no funcional Фэ, Ё, E°) 
da Eq. (6.54), dispensamos a necessidade da restrição da desigualdade da Eq. (6.49). А constante C 
na Eq. (6.54) é um parámetro especificado pelo usuário. Conseqúentemente, podemos definir a 
função lagrangiana: 


How EE aa’ y, 1)= СУ (E, +E)+ vw Saw PA) ders, 
Га] i=l 
y 6.55 
- afd, wore «£] TUE 


NYE +1ED 
i=l 
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ria do problema de programação quadrática cresce com o quadrado do tamanho da amostra de 
treinamento. Conseqüentemente, em aplicações da vida real que podem envolver vários milhares de 
pontos de dados, o problema de programação quadrática não pode ser resolvido pelo uso direto de 
uma biblioteca comercial para otimização. Osuna et al. (1997) desenvolveram um algoritmo de 
decomposição original que realiza a otimização resolvendo uma sequência de subproblemas muito 
menores. Em particular, o algoritmo de decomposição tira proveito dos coeficientes dos vetores de 
suporte que estão ativos em ambos os lados de suas fronteiras definidas por œ = 0 e a = C. Eles 
relatam que o algoritmo de decomposição tem um desempenho satisfatório em aplicações com 
100.000 pontos de dados. 

Em termos de tempo de execução, as máquinas de vetor de suporte são atualmente mais lentas 
que outras redes neurais (p.ex., perceptrons de multiplas camadas treinados com o algoritmo de 
retropropagação) para um desempenho de generalização similar. Hà duas razões para este compor- 
tamento mais lento: 


1. Não hà controle sobre à número de pontos de dados selecionados pelo algontmo de aprendiza- 
gem para serem usados como vetores de suporte. 


2. Não há meios para incorporar conhecimento prévio sobre a tarefa em questão no projeto da 
máquina de aprendizagem. 


Agora discutiremos brevemente algumas modificações da máquina de vetor de suporte com o intui- 
to de tratar destas deficiências. 

A questão de como controlar a seleção de vetores de suporte é dificil, particularmente quando 
os padrões a serem classificados são não-separáveis e os dados de treinamento são ruidosos. Em 
geral, as tentativas de remover erros conhecidos dos dados antes do treinamento ou de removê-los 
da expansão após o treinamento não darão o mesmo hiperplano ótimo, porque os erros são necessá- 
rios para penalizar a n&o-separabilidade. Em Osuna e Girosi (1998), foi investigado o problema da 
redução do tempo de execução de uma máquina de vetor de suporte para classificação de padrões. 
Duas abordagens inovadoras para o tratamento deste problema são descritas: 


* A própria máquina de vetor de suporte é usada como uma ferramenta para regressão não- 
lincar para aproximar a superficie de decisão (separando as classes) com uma precisão 
especificada pelo usuário. 

+ O procedimento para tremar a máquina de vetor de suporte é reformulado para produzir 
exatamente a mesma superficie de decisão, utilizando um menor número de funções de 
base. 


Na primeira abordagem, a solução é simplificada aproximando-a por uma combinação linear de um 
subconjunto das Tunções de base, A máquina resultante é uma extensão natural da máquina de vetor 


de suporte para aproximação de função. Esta extensão é projetada para encontrar o minimo de um 
funcional de custo da seguinte forma: 


i 1 
(Р) = 2, d= Fix), tz 


onde F(-) é uma função aproximativa, dl.) é um funcional de suavização e |х| é a função de custo 
insensivel a e definida por 
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NOTAS E REFERÊNCIAS 


1. 


Seja € um subconjunto de R”. Diz-se que o subconjunto % é convexo se 
ürt*(l-oa)e'€ paratodo (x, y)e 6 e ae [0, 1] 
Diz-se que uma função f. 6 — R é uma função convexa se 
feax-(1-o»)s af *-(l-a)ytv) para todo (rme € e ue [0,1] 


Sendo a complexidade computacional a questão de interesse, podemos identificar duas 

classes de algoritmos: 

“Algoritmos de tempo polinomial, que requerem um tempo de execução que é uma 
função polinomial do tamanho do problema, Por exemplo, o algoritmo da transforma- 
da rápida de Fourier (FFT, fast Fourier transform), usualmente empregado para análi- 
se espectral, é um algoritmo de tempo polinomial pois requer um tempo de execução 
da ordem de nlogn, onde n é uma medida do tamanho do problema. 

“Algoritmos de tempo exponencial, que requerem um tempo de execução que é uma 
função exponencial do tamanho do problema. Por exemplo, um algoritmo de tempo 
exponencial pode levar um tempo 2º, onde л é uma medida do tamanho do problema. 

Com base nisso, podemos ver os algoritmos de tempo polinomial como algoritmos “efici- 

entes" e os algoritmos de tempo exponencial como algoritmos “ineficientes”. 

Hà muitos problemas computacionais que aparecem na prática, para os quais nenhum 
algoritmo eficiente pode ser encontrado. Diz-se que muitos, senão todos, estes problemas 
aparentemente intratáveis pertencem a uma classe de problemas referida como problemas 
NP completas. O termo "NP" significa “não deterministicamente polinomial”. 

Para uma discussão mais detalhada sobre problemas NP completos, veja Cook (1971), 
Garey е Johnson (1979) e Cormen et al. (1990), 

А idéia de um núcleo de produto interno foi usada primeiramente por Aizerman et al. 

(1964a, 1964b) na formulação do método das funções de potencial, que é o percursor das 

redes de função de base radial. Ao mesmo tempo, Vapnik e Chervonenkis (1965) desen- 

volveram a idéia de um hiperplano ótimo. O uso combinado destes dois poderosos concei- 
tos na formulação da máquina de vetor de suporte foi proposto por Vapnik e co-autores em 

1992; veja Boser, Guyon e Vapnik (1992) e Cortes e Vapnik (1995). Uma análise matemá- 

tica completa da máquina de vetor de suporte foi primeiramente descrita em Vapnik (1995) 

e subseqúentemente em uma forma mais expandida em Vapnik (1998). 

A teoria minimax de Huber é baseada em vizinhanças que não são globais em virtude de 

excluirem distribuições assimétricas. Apesar disso, esta teoria trata com sucesso de uma 

grande parte da estatistica tradicional, particularmente a regressão, 

Em Schurmars (1997), o uso de programação linear é explorado adotando-se a norma L 

iwi], no lugar da norma L ||wil, que é usada em máquinas de vetor de suporte. À norma 

L, do vetor peso w é definida por 


wil = Ziel 


onde w, é a i-ésimo elemento de м. Aparentemente, a classificação por margem máxima 
usando a norma £ tem um viés em direção a hiperplanos com orientações axias, Isto é, em 
direção a vetores de peso com poucos elementos diferentes de zero. 

As bibliotecas comerciais para programação quadrática incluem: 

«+. MINOS5.4: (Murtagh e Saunders, 1978) 

• LSSOL (Gill et al., 1986) 

e LOQO (Vanderbei, 1994) 

+. QPOPT e SQOPT (Gill e Murray, 1991) 


MAGUINAS DE VETOR DE SUTCETE 381 


PROBLEMAS 


Hiperplano de separação ótimo 


6.1 


6.2 


6.3 


6.4 


6.5 


Considere o caso de um hiperplano para padrões linearmente separáveis, que é definido 
pela equação 


wWx+b=0 


onde w representa o vetor peso, 5 representa o bias e x representa o vetor de entrada. Diz- 

se que o hiperplano corresponde a um par canonico (w, b) se, para à conjunto de padrões 
Шш а ља А n а в 

de entrada ix, | ү, for satisfeita a exigência adicional 


min wx, +b|=1 


Mostre que esta exigência causa uma margem de separação entre as duas classes igual a 2/ 
i|]. 

Justifique a seguinte afirmação no contexto de padrões não-separáveis: classificação 
incorreta implica não-separabilidade de padrões, mas o contrário não é necessariamente 
verdadeiro. 

Começando com o problema primordial para a otimização do hiperplano de separação 
para padrões não-separáveis, formule o problema dual como descrito na Seção 6.3. 
Neste problema, exploramos o “método deixe um de fora”, discutido no Capitulo 4, para 
estimar o erro de teste esperado produzido por um hiperplano ótimo para o caso de pa- 
drões não-separáveis. Discuta as várias possibilidades que podem surgir no uso deste mé- 
todo pela eliminação de um padrão qualquer da amostra de treinamento e construindo uma 
solução baseada nos padrões restantes. 

A localização do hiperplano ótimo no espaço de dados é determinada pelos pontos de 
dados selecionados como vetores de suporte. Se os dados forem ruidosos, a primeira reação 
poderia ser questionar a robustez da margem de separação à presença de ruido. Contudo, 
um estudo cuidadoso do hiperplano ótimo revela que a margem de separação é realmente 
robusta a ruido. Discuta a razão para este comportamento robusto. 


Núcleo de produto interno 


6.6  Onúclco de produto interno Kix, x ) € calculado sobre uma amostra de treinamento Y de 


6.7 


tamanho NV, produzindo à matriz N -por- Nº 
к={к,} 


onde К. = Mx, x). A matriz К € positiva, já que todos os seus elementos têm valores 
positivos. Usando a transformação de similaridade: 


K = Оло" 


onde A é uma matriz diagonal de autovalores e Q é uma matriz constituida dos autovetores 

correspondentes, formule uma expressão para o núcleo de produto interno Kix, x) em 

termos dos autovalores e dos autovetores da matriz K. Que conclusões você pode tirar 

desta representação? 

(a) Prove a propriedade de invaridncia unitária de núcleo de produto interno Aix. х); 
isto ё, 


Кх, x ) = KtQx, Ох) 
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6.15 


6.16 


de base radial, construa o hiperplano ótimo e identifique os vetores de suporte para este 
conjunto de dados. 

O experimento computacional descrito na Seção 6.6 foi para a classificação de duas dis- 
tribuigöes gaussianas superpostas, O seguinte parámetro de “regularização” foi usado na- 
quele experimento: C = 0,1. A largura comum das funções de base radial usadas para 
construir os núcleos de produto interno foi e = 4, Repita o experimento computacional 
descrito naquela seção para os dois valores seguintes do parâmetro de regularização: 

(a) C-0,05 
(b) C- 0,2 

Comente os seus resultados com base nas considerações relatadas na Seção 6.6, 

Ao aplicar as redes de função de base radial a problemas de regressão não-linear, 
frequentemente constatamos que o uso de uma função de base não-localizada como a 
multiquádrica resulta em uma solução mais precisa que o uso de uma função de base 
localizada como a função gaussiana. Pode-se conjeturar que uma situação similar surge no 
caso das máquinas de vetor de suporte, porque o uso de uma máquina de aprendizagem 
polinomial (ilimitada) pode se mostrar mais precisa que uma máquina de função de base 
radial (limitada). Usando um experimento computacional em um problema de regressão 
não-linear, explore a validade desta conjetura. 
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Таха de era de teste 
(peneralizacio) 


laxa de erro 


Taxa de erro de treinamento 


FIGURA 7.4 Desempenho de 


erro conceitual do algoritmo m 
AdaBoost Número de iteragoes de reforço 





ser novamente enfatizado que a análise de margem apresentada em Schapire et al, (1997) é especi- 
fica para o AdaBoost e não se aplica a outros algoritmos de reforço. 


7.5 EXPERIMENTO COMPUTACIONAL 11 


Neste experimento, exploramos o algoritmo de reforço por filtragem para resolver uma tarefa de 
classificação de padrões razoavelmente dificil. O problema de classificação é bidimensional, envol- 
vendo regiões de decisão não-convexas, como mostrado na Fig. 7.5. Uma classe de padrões consiste 
de pontos de dados que se encontram dentro da região rotulada como 6, e a outra classe de padrões 
consiste de pontos de dados dentro da região rotulada como €. O objetivo é projetar uma máquina 
de comité que decida se um padrão de teste pertence à classe €, ou à classe €... 

A máquina de comité usada para solucionar este problema consiste de trés especialistas. Cada 
especialista consiste de um perceptron de múltiplas camadas 2-5-2 que tem dois nós de entrada, 
cinco neurônios ocultos e dois neurônios de saída. Foi usado o algoritmo de retropropagação para 
realizar o treinamento. A Figura 7.6 mostra gráficos de espalhamento dos dados usados para treinar 
os trés especialistas. Os dados mostrados na Fig. 7.6a foram usados para treinar o especialista 1. 
Os dados mostrados na Fig. 7.6b foram filtrados pelo especialista | após seu treinamento estar 
concluido; este conjunto de dados foi usado para treinar o especialista 2. Os dados mostrados na 
Fig. 7.6c foram filtrados pela ação combinada dos especialistas 1 e 2; este conjunto de dados foi 
usado para treinar o especialista 3. O tamanho da amostra de treinamento para cada especialista foi 
N, = 1000 padrões. Examinando estas trés figuras, observamos que: 


«+. Os dados de treinamento рага o especialista | na Fig. 7.6a são uniformemente distribuidos, 
• Os dados de treinamento para o especialista 2 na Fig. 7.6b exibem concentrações de pontos 
de dados nas áreas A e B que são aparentemente dificeis de serem classificados pelo primei- 
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FIGURA 7.5 Configurações 
de padrões para o experimento 
Zi sobre reforço 





* 
иё 





(e 


FIGURA 7.6 Gráficos de espalhamento para o treinamento de especialistas no experimento computacional sobre 
relorpo: (a) Especialista 1. (b) Especialista 2. (c) Especialista 3 
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ro especialista. O número de pontos de dados nestas duas regiões é igual ao número dos 
pontos classificados corretamente. 
Os dados de treinamento para o especialista 3 na Fig. 7.6c exibem uma concentração ainda 


maior de pontos de dados aparentemente dificeis de serem classificados por ambos os espe- 
cialistas 1 e 2. 


As Figuras 7.7a, 7.7b e 7.7c mostram as fronteiras de decisão formadas pelos especialistas 1, 2 e 3, 
respectivamente. À Figura 7.7d mostra a fronteira de decisão global formada pela ação combinada 
de todos os trés especialistas, que é obtida simplesmente pela soma de suas saidas individuais. Note 
que a diferença entre as regiões de decisão das figs. 7.7a e 7.7b relativas aos especialistas | e 2 
define a distribuição de pontos de dados da Fig. 7.6c usada para treinar o especialista 3. 





FIGURA 7.7 Fronteiras de decisão formadas pelos diferentes especialistas no experimento sobre reforço. (a) Espe- 
cialista 1, (b) Especialista 2. (c) Especialista 3. (d) Máquina de comitè inteira 


As probabilidades de classificação correta para os trés especialistas sobre os dados de teste 
foram: 
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Especialista 1: 75,15 por cento 
Especialista 2: 71,44 por cento 
Especialista 3: 68,90 por cento 


A probabilidade global de classificação correta para a máquina de comité inteira foi de 91,79 por 
cento, que foi calculada usando 32,000 padrões de dados de teste. A fronteira de decisão global 
construida pelo algoritmo de reforço para os três especialistas mostrada na Fig. 7,7d é uma evidên- 
cia a mais deste bom desempenho de classificação. 


7.6 MODELO DE MISTURA GAUSSIANO ASSOCIATIVO 


Na segunda parte do capítulo, começando com esta seção, estudamos a segunda classe de máquinas 
de comité, ou seja as estruturas dinâmicas. O termo “dinâmica” é usado aqui no sentido de que a 
integração do conhecimento adquirido pelos especialistas é realizada sob a ação do sinal de entrada. 

Para começar a discussão, considere uma rede modular na qual o processo de aprendizagem 
acontece fundindo de um modo suave as formas auto-organizada € supervisionada. Os especialistas 
tecnicamente realizam aprendizagem supervisionada na medida em que as suas saidas individuais 
são combinadas para modelar a resposta desejada. Percebe-se, entretanto, que os especialistas estão 
também realizando aprendizagem auto-organizada: isto é, eles se auto-organizam para encontrar 
um boa partição do espaço de entrada de modo que cada especialista modele bem seu próprio 
subespaço, e como grupo modelam bem o espaço de entrada, 

No esquema de aprendizagem recém-descrito, há um ponto de afastamento dos esquemas 
considerados nos três capítulos anteriores no qual se assume um modelo específico para a geração 
de dados de treinamento. 


Modelo Probabilístico de Geração 


Para fixar as idéias, considere um problema de regressão no qual um vetor de regressão x produz 
uma resposta representada pela variável aleatória O; uma realização desta variável aleatória é repre- 
sentada por d. Sem perda de generalidade, adotamos uma forma escalar de regressão, meramente 
para simplificar a apresentação. Especificamente, assumimos que a geração da resposta d é gover- 
nada pelo seguinte modelo probabilistico (Jordan e Jacobs, 1995): 


1. Um vetor de entrada x é escolhido aleatoriamente de uma distribuição prévia. 
2. Uma regra particular, digamos a regra &, é selecionada de acordo com a probabilidade condi- 
cional P(k|x, a"), dado x e um vetor de parámetros al”, 


3. Para a regra К, к= 1, 2... К, a resposta do modelo d é linear em x, com um erro aditivo €, 
modelado como uma variável aleatória com distribuição gaussiana com média zero e variância 
unitària: 

є ] = 0 para todo k (7.17) 
e 


var[e,] = 1 para todo & (7.18) 


402 Broes Neurais 


Em relação ao ponto 3, a suposição da variância unitária é feita apenas por simplicidade didática, 
Em geral, cada especialista tem uma variância de saída diferente que pode ser aprendida dos dados 
de treinamento. 

A geração probabilistica de D é determinada pela probabilidade condicional P(D = d | x,w!") 
dado x e um vetor de parámetros wi", para & = 1,2,..., А. Não exigimos que o modelo probabilístico 
de geração aqui descrito deva ter uma correspondência direta com uma realidade fisica. Em vez 
disso, apenas exigimos que as decisões probabilisticas incorporadas nele representem um modelo 
abstrato, o qual com precisão incremental especifique a localização da media condicional da res- 
posta d em uma variedade não-linear que relaciona o vetor de entrada à saida média (Jordan, 1994). 

De acordo com este modelo, a resposta D pode ser gerada de K diferentes modos, 
correspondendo às K escolhas do rótulo k. Assim, a probabilidade condicional de gerar a resposta D 

= d, dado o vetor de entrada x, é igual à 


K 
P(D z d|x,8")- Y P(Dz d|x, wy) Pia) (7.19) 
kel 


= LI - a ma i K 
onde 8" о veror de parámetros do modelo de geração representando a combinação de a'e | wF К 
O indice O em af" ew é usado para distinguir os parâmetros do modelo de geração daqueles do 
modelo de mistura de especialistas, considerado a seguir, 


Modelo de Mistura de Especialistas 


Considere a configuração de rede da Fig. 7.8, referida como um modelo de mistura de especialistas 
(ME). Especificamente, consiste de А módulos supervisionados chamados de redes de especialis- 
tas ou simplesmente especialistas, e de uma unidade integradora chamada de rede de passagem que 
desempenha a função de um mediador entre as redes de especialistas. Assume-se aqui que os dife- 
rentes especialistas funcionam melhor em regiões diferentes do espaço de entrada de acordo com o 
modelo probabilistico de geração descrito, por isso a necessidade da rede de passagem. 

Como se assumiu que o problema de regressão é escalar, cada rede especialista consiste de um 
filtro lincar. A Fig. 7.9 mostra o grafo de fluxo de sinal de um único neurônio que constitui o 
especialista Ё, Assim, a saida produzida pelo especialista k € o produto interno do vetor de entrada x 
e o vetor peso sináptico w, deste neurônio, como mostrado por 


Ix, k=1,2,…K (7.20) 


А rede de passagem consiste de uma única camada de À neurônios, com cada neurônio atribuido a 
um especialista especifico. À Figura 7.10a mostra o grafo arquitetural da rede de passagem e a Fig. 
7,10b mostra o grafo de fluxo de sinal do neurônio & daquela rede. Ao contrário dos especialistas, os 
neurônios da rede de passagem são não-lineares, com suas funções de ativação definidas por 


gep) y k=12..K 
Y exp(u,) 


j=l 


(7.21) 
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FIGURA 7.8 Diagrama em blocos do modelo ME; as saídas escalares dos especialistas 
são mediadas por uma rede da passagem 


FIGURA 7.9 Grafo de fluxo de sinal 
de um único neurônio linear que consti- 
tui à especialista К 





onde u, é o produto interno do vetor de entrada x pelo vetor peso sináptico a,; isto č, 
iy =afx, k=1,2,...,K (7.22) 


A transformação exponencial “normalizada” da Eq. (7.21) pode ser vista como uma generalização 
da função logistica para múltiplas entradas. Ela preserva a ordem hierárquica dos seus valores de 
entrada e é uma generalização diferenciável da operação “o vencedor leva tudo" de escolha do valor 
máximo. Por esta razão, a função de ativação da Eq. (7.21) é referida como softmax (Bridle, 19902). 
Note que a dependência linear de u, em relação à entrada x torna as saidas da rede de passagem 
funções não-lineares de x. 

Para uma interpretação probabilistica do papel da rede de passagem, podemos vê-la como um 
"classificador" que mapeia o vetor de entrada x em probabilidades multinamiais de modo que os 
diferentes especialistas serão capazes de encontrar a resposta desejada (Jordan e Jacobs, 1995). 
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FIGURA 7.10 (a) Camada única de _ exp tuy 
neurônios softmax para a reda de hg | 
passagem. (b) Grafo de fluxo Em Eep ш, 
de sinal de um neurónio saftmax (bi си 


Mais importante que isso é o fato de que o uso do softmax como а função de ativação para а 
rede de passagem assegura que estas probabilidades satisfazem as seguintes exigências: 


О<р = I para todo k (7.23) 
c 
a 
Ув =! (7.24) 
kel 


Considere que y, represente a saida do especialista k em resposta ao vetor de entrada x, A saida 
global do modelo ME é 


i 
у= Угу, (7.25) 
deel 


onde, como salientado anteriormente, g, é uma função não-linear de x. Dado que a regra k do 
modelo probabilístico seja selecionada e que a entrada seja x, uma saida individual y, é tratada 


como a média condicional da variavel aleatória D, como mostrado por 
Еріх] =, 
r (7.26) 
= W,X, kelk 


Com u, representando a média condicional de D, podemos escrever 


Moy  4=1,2,…K (7.27) 
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A variância de D é a mesma do erro e,. Assim, invocando o uso da Eq. (7.18), podemos escrever 


va[D|x,£] 21, | &-1,2,., К (7.28) 
Dado o vetor de entrada x e dado que a regra k do modelo probabilistico de geração (1.e., o especi- 


alista k) seja selecionada, a função de densidade de probabilidade de D pode, portanto, ser descrita 


como. 


foldlx, A, Opee ЕЕ r} k=1,2,…£ (7.29) 


onde B é um vetor parâmetro que representa os parâmetros tanto da rede de passagem como dos 
especialistas do modelo ME. À função densidade de probabilidade de D, dado x, é a mistura das 
funções de densidade de probabilidade { f£, (d|x, k 0}, . > cam os parámetros de mistura sendo as pro- 
babilidades multinomiais determinadas pela rede de passagem. Podemos então escrever 


/Ь(а\х,®) = Y e, fo(dix,k,0) 


=p da ex- ld- ») 


A distribuição de probabilidade da Eq. (7.30) é denominada um modelo de mistura gaussiano 
associativo. À sua contrapartida não-associativa é o modelo de mistura gaussiano tradicional 
(Titterington et al., 1985; McLachlan e Basford, 1988), que é descrito brevemente no Capítulo 5. 
Um modelo associativo difere de um modelo não-associativo pelo fato de que as médias condicio- 
nais р, e os parâmetros de mistura g, não são fixos; em vez disso, todos eles são funções do vetor de 
entrada x. O modelo de mistura gaussiano da Eq. (7.30) pode assim ser visto como uma generaliza- 
ção do modelo de mistura gaussiano tradicional, 

Os aspectos importantes do modelo ME mostrado na Fig. 7.8, assumindo que esteja adequa- 
damente sintonizado através de treinamento, são: 


(7.30) 


1. A saída y, do especialista k fornece uma estimativa da média condicional da variável aleatória 
que representa a resposta desejada D, dado x e dado que a regra k do modelo probabilistico de 
geração seja válida. 

2. A saida g, da rede de passagem define a probabilidade multinomial que a saida do especialista 
k coincida com o valor D = d, baseado no conhecimento ganho somente de x. 


Trabalhando com a distribuição de probabilidade da Eq. (7.30) e dada a amostra de treinamen- 
to lx, d UN , O problema é aprender as médias condicionais р, = y, € os parámetros de mistura 
Bp k= 1, 2,..., À, de um modo ótimo, de forma que f‚(d |x,8) formera uma boa estimativa da 
função de densidade de probabilidade relativa ao ambiente responsável pela geração dos dados de 
treinamento. 
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Exemplo 7.1 Superficie de Regressão 


Considere um modelo ME com dois especialistas e uma rede de passagem com duas saidas repre- 
sentadas por g, e g, À saida g, é definida por (veja a Eq. (7.21)) 


Ө explu, } 

"e exp(u, ) + ехри, ) 
_ | 
© 1+ехр(-(и—и,)) 


(7.31) 


Considere que a, e a, representem dois vetores de pesos da rede de passagem. Podemos então 
ESCTOVET 


и,= к'а„К= 1,2 


e com isso rescrever a Ey. (7.31) como: 


аа а) (7.32) 


A outra saída g, da rede de passagem é 


E |+ exp(-x' (a, —8,) 


Assim, g e g, têm a forma de uma função logistica, mas com uma diferença. À orientação de g, é 
determinada pela direção do vetor diferença (a, — a,), enquanto que a orientação de g, é determinada 
pelo vetor diferença (a, — а, ), que é o negativo daquele para a porta g . Ao longo da aresta definida 
рога = a temos g, — g, = 1/2, e os dois especialistas contribuem igualmente para a saida do modelo 
ME. Longe da aresta, um dos dois especialistas assume o papel dominante. 

и 


7.7 MODELO DE MISTURA HIERÁRQUICA DE ESPECIALISTAS 


O modelo ME da Fig. 7.8 funciona dividindo-se o espaço de entrada em diferentes subespaços, com 
uma unica rede de passagem responsavel pela distribuição da informação (extraida dos dados de 
treinamento) para os vários especialistas. O modelo de mistura hierárquica de especialistas (МНЕ), 
ilustrado na Fig. 7,11, é uma extensão natural do modelo ME. A ilustração é para um modelo МНЕ 
de quatro especialistas. A arquitetura do modelo МНЕ é similar а uma arvore, na qual as redes de 
passagem estão em vários pontos não-terminais da árvore e os especialistas se encontram nas folhas 
da árvore, O modelo MHE se diferencia do modelo ME na medida em que o espaço de entrada é 
dividido em conjuntos aninhados de subespagos, com a informação sendo combinada e redistribuida 


Hidden page 


Hidden page 
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FIGURA 7.12 Árvore de decisão binária, 


li descrita como seque: 
+ Nòs t o f são descendentes do nå I. 
f + Nós fa 1 são descendentes do nó ё: e da 
i mesma forma para 4 e f em relação a №. 


e  Asregras para selecionar divisões em intermediários (i.e, não-terminais) da CART desem- 
penham um papel análogo às redes de passagem do modelo MHE. 

* Os nós terminais da CART desempenham um papel análogo às redes especialistas do mo- 
delo MHE. 


Começando com a CART para um problema de classificação ou regressão de interesse, tiramos 
vantagem da natureza discreta da CART para fornecer uma busca eficiente entre árvores alternati- 
vas. Usando uma árvore assim escolhida como passo de inicialização no algoritmo de aprendiza- 
gem para estimação de parâmetros, tiramos vantagem da base probabilística contínua do modelo 
MHE para produzir uma estimativa "suave" melhorada para a resposta desejada. 


O Algoritmo CART 


Com base no que foi dito acima, cabe uma breve descrição do algoritmo CART. A descrição ё 
apresentada no contexto de regressão. Começando com os dados de treinamento lx. d, bs pode- 
mos usar CART para construir uma árvore binária T para regressáo por minimos quadrados, proce- 
dendo como a seguir (Breiman et al., 1984): 


І. Seleção de divisões. Considere que um nó r represente um subconjunto da árvore corrente T. 
Considere que d (1) represente a média dos d, para todos os casos (x, d.) que se encontram 
dentro de г, isto é, 


= 1 
dl) = —=— 
vi MOD d, (7.33) 


нё! 


onde a soma é sobre todos os d tais que x e ге Mt) é o número total de casos em г. Defina 


| = 
#0=— У (d, – dy! (7.34) 


nat 


ED = 260) (7.35) 


rr 
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Para o nó £, a soma A. Kd — dry representa a "soma dos quadrados dentro do nó"; isto é, ela 
é o total dos desvios quadrados de todos os @ em f em relação ás suas médias d (1). Somando- 
se estes desvios sobre / є T resulta a soma total dos quadrados do nó, e dividindo-a por N 
produz a média. 

Dado um conjunto qualquer de divisões 5 de um nó corrente / em 7, a melhor divisão s* é 
aquela divisão em $ que mais reduz (Г). Para sermos mais precisos, suponha que para qual- 
quer divisão s do nó гет t, (um novo nó à esquerda de f) e t, (um outro nó novo à direita de г), 
fazemos 


A€(s, Y = EUD) - Er) - EC) (7.36) 
A melhor divisão s* é então escolhida como a divisão particular para a qual temos 
AE(s*,1)= max AC(S} (7.37) 


Uma árvore de regressão assim construída é projetada para maximizar a redução de (Г). 


2. Determinação de um nó terminal. Um nå t é declarado um nó terminal se esta condição for 
satisfeita: 


max AB (1,5) <В (7.38) 


onde B é um determinado limiar. 
3. Estimação por minimos quadrados dos parámetros de um по terminal. Considere que f repre- 


sente um nó terminal no final da árvore binária Ге que X(f) represente a matriz composta de 


x, € I. Considere que dir) represente o vetor correspondente composto de todos os d em г. 
Defina 


wir) = Ма) (7.39) 


onde X (r) é a pseudo-inversa da matriz X(r). O uso de w(r) produz uma estimativa por minimos 
quadrados de dir) na saida do nó terminal t. Usando os pesos calculados da Eq. (7.39), o proble- 
ma de seleção da divisão é resolvido procurando-se a menor soma de residuais (erros) quadra- 
dos em relação às superficies de regressão, em vez de fazer issò em relação às médias. 


Usando CART para Inicializar o Modelo MHE 


Suponha que o algoritmo CART tenha sido aplicado para um conjunto de dados de treinamento, 
resultando em uma árvore de decisão binária para este problema. Podemos descrever uma divisão 
produzida por CART como uma superficie multidimensional definida por 


ax+b=0 


onde x é à vetor de entrada, a representa um vetor parámetro е b representa um bias. 

Considere a seguir a situação correspondente em um modelo MHE, Do Exemplo 7,1 notamos 
que a superficie de regressão produzida por uma rede de passagem em uma árvore binária pode ser 
expressa como: 
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: | 
B terp- tA) (7.40) 


que define uma divisão, particularmente quando g = 1/2. Considere que o vetor peso (diferença) a 
para esta rede de passagem particular seja escrito como 


a = [a]. il (7.41) 


onde [|а]| representa o comprimento (i.e., a norma euclidiana) de a, e a/||al| é um vetor de compri- 
mento unitário normalizado, Usando a Eq. (7.41) em (7.40), podemos então rescrever uma divisão 
parametrizada por uma rede de passagem como: 


1 


onde vemos que a/||a|| determina a direção da divisão e |[а]| determina a sua acuidade. Da discussão 
apresentada no Capítulo 2, observamos que o comprimento do vetor a age efetivamente como o 
reciproco da temperatura, O ponto importante a notar da Eq. (7.42) é que uma rede de passagem 
constituida de um filtro linear seguido por uma forma softmax de náo-linearidade é capaz de imitar 
uma divisão no estilo de CART. Além disso, temos um grau de liberdade adicional, que é o vetor 
parâmetro a. Em uma árvore de decisão padrão, este parámetro adicional é irrelevante porque um 
limiar (i.e, uma decisão abrupta) é usado para criar uma divisão. Por outro lado, o comprimento de 
a tem uma influência profunda na acuidade da divisão produzida por uma rede de passagem no 
modelo MHE, Especificamente, para um vetor peso sináptico a de direção fixa, podemos afirmar 
que: 


* quando а é longo (i.e., a temperatura é baixa), a divisão é abrupta, e 
e quando a é curto (i.e., a temperatura é alta), a divisão é suave. 


Se no limite tivermos ||a|| = 0, a divisão desaparecerá e g = 1/2 em ambos os lados da divisão 
(ficticia). O efeito de se fixar ||al| = O é equivalente a podar o nó não-terminal da árvore, porque a 
rede de passagem em questão nào divide mais. No caso muito extremo quando |!а|| € pequeno (i.e., 
a temperatura é alta) em todo nó não-terminal, o modelo MHE inteiro age como um único nó; isto 
é, o MHE é reduzido a um modelo de regressão linear (assumindo-se especialistas lineares). Quan- 
do os vetores pesos sinápticos da rede de passagem começam a crescer em comprimento, o MHE 
começa a fazer divisões (suaves), aumentando com isso o número de graus de liberdade disponível 
para o modelo. 
Podemos assim inicializar o MHE procedendo como mostrado a seguir: 


1. Aplique CART aos dados de treinamento. 

2. Iguale os vetores pesos sinäpticos dos especialistas do modelo МНЕ às estimativas por mini- 
mos quadrados dos vetores parâmetros nos nós terminais correspondentes da árvore binária 
resultante da aplicação de CART. 

3. Para as redes de passagem: 

(a) fixe os vetores pesos sinápticos de modo a apontarem em direções que sejam ortogonais às 
divisões correspondentes na árvore binária obtida por CART, e 
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(b) faça os comprimentos (1.e., normas euclidianas) dos vetores pesos sinápticos iguais a vetores 
aleatórios pequenos. 


7.9 PROBABILIDADES A PRIORI E A POSTERIORI 


As probabilidades multinomiais g, e Eu relativas ao primeiro nível e ao segundo nível das redes de 
passagem, respectivamente, podem ser vistas como probabilidades a priori, no sentido de que seus 
valores são dependentes apenas do vetor de entrada (estimulo) x. De um modo correspondente, 
podemos definir probabilidades a posteriori h., ch, cujos valores dependem tanto do vetor de entra- 
da x como das respostas dos especialistas a x. Este último conjunto de probabilidades é útil no 
desenvolvimento de algoritmos de aprendizagem para modelos MHE. 

Com relação ao modelo МНЕ da Fig. 7.11, definimos as probabilidades a posteriori nos nås 
não-terminais da árvore como (Jordan e Jacobs, 1994): 


: | А 
Е; mds ex |- z ld — pa) ) 
u Tr I - 


(7,43) 


1 А 
å Eu exp a) 


gc | А 
Ё ЕЕ :) 
2 se 2 № 


(7.44) 


O produto de h e h,, define а probabilidade conjunta a priori para que o especialista (у, X) produza 
a saida v. que coincide com a resposta desejada d, como dado por 


h, = hh 
| : 
_ EEn opd) ) (7.45) 
ОЕ E IN MN TEE 
ih exp- -(d уар ) 
inl sal 2 
A probabilidade ^ а Satisfaz as duas condições seguintes 
OSASI para todo (j, k) (7.46) 


i i 
22,571 (7.47) 


del 
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A implicação da Eq. (7.47) é que a atribuição de crédito entre os especialistas se dá de forma 
competitiva. Além disso, notamos da Eq. (7.45) que quanto mais próximo y, estiver de d, tanto mais 
provável que seja atribuido crédito ao especialista (j, X) pela sua saida ter coincidido com d, o que é 
intuitivamente razoável. 

Uma importante caracteristica do modelo MHE que merece menção especial é a recursividade 
nas computações envolvidas no cálculo das probabilidades a posteriori. Examinando as Eqs. (7.43) 
e (7.44), vemos que o denominador de л, na Eq. (7.44) aparece no em umerador de A, na Eq. (7.43). 
Em um modelo MHE, desejamos calcular a probabilidade a posteriori para todo nó não-terminal da 
árvore. É ai que a recursividade é particularmente útil, Especificamente, o cálculo das probabilida- 
des a posteriori de todos os nós não-terminais da árvore é executado em um único passo como aqui 
descrito: 


e  Movendo-se através da árvore em direção ao nó raiz, nivel por nível, a probabilidade a 
posteriori em qualquer nó nào-terminal da árvore é ohtida simplesmente combinando-se as 
probabilidades a posteriori de seus “filhos”. 


7.10 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANCA 


Voltando agora à questão da estimação paramétrica para o modelo MHE, primeiro notamos que a 
sua interpretação probabilistica é um pouco diferente daquela do modelo ME, Com o modelo MHE 
formulado como uma árvore binária, assume-se que o ambiente responsável pela geração dos dados 
envolve uma sequéncia aninhada de decisões suaves (binárias), terminando na regressão do vetor 
de entrada x para a saída d. Em particular, assumimos que, no modelo probabilistico de geração 
para o MHE, as decisões são modeladas como variáveis aleatórias multinomiais (Jordan e Jacobs, 
1994). Isto é, para cada entrada x interpretamos g,(x, 8, ) como as probabilidades multinomiais as- 
sociadas com a primeira decisão, eg, (x, 8 ) como as distribuições condicionais multinomiais asso- 
ciadas com a segunda decisão, Como anteriormente, o indice O significa valores reais dos parámetros 
do modelo de geração. As decisões formam uma árvore de decisão. Como no modelo ME, utiliza-se 
softmax como a função de ativação das redes de passagem em todo o modelo MHE. Em particular, 
a ativação g, do neurônio de saída k na rede de passagem no nivel superior é definida por 


5 expiu, ) = 
Es = expla, )+ exp(u, ) x т 


onde u, é a soma ponderada das entradas aplicadas åquele neurônio. Similarmente, a ativação do 
neurônio de saída / na rede de passagem Á no segundo nível da hierarquia é definida por 


expiu, ) 

=c aum ‚Aiel 7.49 

Em exp(u,, ) + explu,,) Ud) vm 
onde u,, é a soma ponderada das entradas aplicadas a este neurónio particular. 

Para facilitar a apresentação, trabalharemos com um modelo MHE com apenas dois niveis de 

hierarquia (i.e, duas camadas de redes de passagem), como indicado na Fig. 7.11. Como com o 
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O termo “estimativa por máxima verossimilhança” com as desejadas propriedades assintóticas? 
normalmente se refere a uma raiz da equação da verossimilhança que maximiza globalmente a 
função de verossimilhança KB). A estimativa B usada na prática, entretanto, pode ser na realidade 
um máximo local e não um máximo global, De qualquer forma, a estimativa por máxima 
verossimilhança, proposta por Fisher (1925), é baseada em uma idéia relativamente simples: 


L(8)- 0 (7.54) 


Diferentes populações geram diferentes amostras de dados e qualquer amostra de dados especificada 
é mais provável de ter vindo de uma população do que de outras. 


Mais especificamente, o vetor parâmetro desconhecido 8 é estimado pelo seu valor mais plausível, 
dado o vetor de entrada x. Em outras palavras, a estimativa de máxima verossimilhança Ө é o valor 
do vetor parámetro Ө para o qual a função de densidade de probabilidade condicional f,(d|x, Ө) é 
máxima. 


7.11 ESTRATÉGIAS DE APRENDIZAGEM PARA O MODELO MHE 


A descrição probabilística do modelo MHE na Seção 7.10 nos levou à função logaritmo da 
verossimilhança L(8) como a função objetivo a ser maximizada. A questão crucial é como realizar 
esta maximização, Como em todo problema de otimização, não há uma abordagem única para a 
maximização de L(0). Em vez disso, temos várias abordagens à nossa disposição, duas das quais 
são resumidas aqui (Jacobs e Jordan, 1991; Jordan e Jacobs, 1994): 


1. Abordagem do gradiente estocástico. Esta abordagem produz um algoritmo para a maximização 
de L(B) em tempo de execução. A sua formulação para um modelo MHE de dois níveis, como 
apresentado na Fig. 7.11, depende de fórmulas para os seguintes ingredientes: 


O vetor gradiente dL/dw, para o vetor de pesos sinápticos do especialista (у, £). 

e O vetor gradiente д/а, para o vetor de pesos sinápticos do neurônio de saída К da rede de 
passagem do nível superior. 

e О vetor gradiente dL/da, para o vetor de pesos sinápticos do neurônio de saída da rede de 
passagem do segundo nivel associado ao especialista (j, А). 


Pode-se mostrar adiante que (veja o Problema 7.9): 
dL 


dw. hu ri nal = ICH (7.55) 
aL 

en = 7.56 
Ja, 7 A0- gxn) (7.56) 

E — i (n) (n) gaan) (7.57) 
A 


A Equação (7.55) afirma que durante o processo de treinamento os pesos sinäpticos do especialista 
(/, E) são ajustados para corrigir o erro entre a saida y, e a resposta desejada d, em proporção à 
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probabilidade conjunta a posteriori h, que o especialista (j, А) produza uma saida que coincide com 
d. A Equação (7.56) afirma que os pesos sinápticos do neurônio de saída k na rede de passagem do 
nivel superior são ajustados de modo a forçar as probabilidades a priori g4n) a se moverem em 
direção ás probabilidades a posteriori correspondentes h (n). A Equação (7.57) afirma que os pesos 
sinápticos do neurônio de saída da rede de passagem do segundo nível associado ao especialista (j, 
k) são ajustados para corrigir o erro entre a probabilidade a priori gulnjea correspondente proba- 
bilidade a posteriori h (n) em proporção à probabilidade a posteriori h (n). 

De acordo com as Eqs. (7.55) a (7.57), os pesos sinápticos do modelo MHE são atualizados 
após a apresentação de cada padrão (estímulo). Somando às vetores gradiente mostrados aqui, em 
n, podemos formular a versão por lote do algoritmo da subida do gradiente para maximizar a função 
logaritmo de verossimilhança L(8). 

2. Abordagem da maximização do valor esperado. O algoritmo da maximização do valor espera- 
do (ME), proposto por Dempster et al. (1977), fomece um procedimento iterativo para calcular a 
estimação por máxima verossimilhança em situações nas quais, exceto pela falta de alguns dados, a 
questão da estimatição por máxima verossimilhança é uma questão imediata. O algoritmo ME deri- 
va seu nome do fato de que em cada iteração do algoritmo há dois passos: 


* О passo do valor esperado ou passo E, que usa o conjunto de dados observados de um 
problema de dados incompletos e o valor corrente do vetor parâmetro para produzir dados 
de forma a postular um conjunto aumentado ou conjunto de dados completos. 

e (passo de maximização ou passo M, que consiste em derivar uma nova estimativa do vetor 
parâmetro maximizando a função logaritmo da verossimilhança dos dados completos pro- 
duzidos no passo E, 


Assim, partindo de um valor adequado para o vetor parâmetro, o passo E e o passo M são repetidos 
alternadamente até a convergência. 

As situações em que o algoritmo ME é aplicável incluem não apenas aquelas que envolvem 
naturalmente dados incompletos, mas também uma varıedade de outras situações nas quais a falta 
de completeza não é de todo evidente ou natural para o problema de interesse. Na verdade, o cálculo 
da estimativa por máxima verossimilhança é freqüentemente muito facilitada formulando-o artificial- 
mente como um problema de dados incompletos, Isto é feito porque o algoritmo ME é capaz de 
explorar a reduzida complexidade da estimação por máxima verossimilhança, dado os dados com- 
pletos (McLachlan e Krishnan, 1997). O modelo MHE é um exemplo desse tipo de aplicação. Neste 
caso, são introduzidos artificialmente no modelo MHE dados ausentes na forma de certas variáveis 
indicadoras para facilitar a estimação de máxima verossimilhança do vetor parâmetro desconheci- 
do, como descrito na Seção 7.12. 

Uma importante característica do modelo MHE, quer ele seja projetado usando a abordagem 
do gradiente estocástico ou o algoritmo ME, apresenta-se de duas formas: 


* (Сада rede de passagem do modelo está continuamente calculando a probabilidade a posteriori 
para todo ponto de dado do conjunto de treinamento. 

+ Osajustes aplicados aos pesos sinápticos do especialista e das redes de passagem do mode- 
lo, de uma iteração para a seguinte, são funções da probabilidade a posteriori assim calcu- 
lada e da correspondente probabilidade a priori. 


Conseqüentemente, se uma rede especialista em um nivel mais baixo na árvore falhar em fazer um 
bom ajuste dos dados de treinamento na sua vizinhança local, a superficie de regressão (discriminante) 
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O algoritmo é inicializado com um valor inicial 8(0) do vetor parâmetro 8. O passo E e o passo M 
são então repetidos alternadamente de acordo com as Eqs. (7.60) е (7.61), respectivamente, até que 
a diferença entre L( Bin+ 1) e L ĝia caia a um valor arbitrariamente pequeno, neste ponto a com- 
putação é encerrada, 

Note que, após uma iteração do algoritmo ME, à função logaritmo da verossimilhança para 
dados incompletos não diminui, como mostrado por (veja o Problema 7.10) 


L(6(n-1)2L0(n)  paran-0, 1,2... (7.62) 


A igualdade normalmente significa que estamos em um ponto estacionário da função logaritmo da 
verossimilhança. 


7.13 APLICAÇÃO DO ALGORITMO ME AO MODELO MHE 


Tendo nos familiarizado com o algoritmo ME, estamos agora prontos para resolver o problema da 
estimação paramétrica no modelo МНЕ usando o algoritmo ME. 

Considere que gj! eg); representem as probabilidades multinomiais (condicionais) associa- 
das com as decisões tomadas pela rede de passagem k do primeiro nivel e pela rede de passagem (ў, 
k) do segundo nivel do modelo MHE da Fig. 7.11, respectivamente, quando ele opera com o exem- 
plo i do conjunto de treinamento. Então, da Eq. (7.31) vemos facilmente que o valor correspondente 


da fdp condicional da variável aleatória D, dado o exemplo x e o vetor parámetro Ө, é dado por 
І г il : rå 1 ПТЕР! 
fold | x,.0)=—5= УУ gi; exp| ^ - (d = у) (7.63) 
al Emi "m A 2 5 g 


onde у! é a saída produzida pelo especialista (у, &) em resposta ao exemplo i do conjunto de treina- 
mento. Assumindo que todos os N exemplos contidos no conjunto de treinamento são estatistica- 
mente independentes, podemos formular a função logaritmo da verossimilhança para o problema 
de dados incompletos como segue: 


Lid = oe TTA | Т] (7.64) 


Usando a Eq. (7.63) em (7.64) e ignorando a constante —(1/2)log( 21), podemos escrever 


L(8) = у Det Уай enn (4 уа) ) (7.65) 


Para calcular a estimativa por máxima verossimilhança de 8, temos que encontrar um ponto estaci- 
onário {i.e um máximo local ou global) de £(0). Infelizmente, a função logaritmo da verossimilhança 
L(8), como definida na Ea. (7.65), não se presta para este tipo de cálculo. 
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projetada para preservar a informação contida nos dados de treinamento, Entretanto, usa uma abor- 
dagem de caixa preta para ajustar uma única função aos dados, perdendo com isso o entendimento 
do problema. O MHE, representando um tipo dinâmico de máquina de comitê, é um modelo que 
representa um compromisso entre estes dois casos extremos, compartilhando caracteristicas co- 
muns de ambos, CART e MLP: 


e A arquitetura do МНЕ é similar a da CART, mas difere dela pela partição suave do espaço 
de entrada, em vez da partição abrupta. 

«O МНЕ usa uma forma aninhada de näo-linearidade similar a do MLP, mas não com o 
propósito de realizar o mapeamento de entrada-saida, mas sim para particionar o espaço de 
entrada. 

Neste capitulo, enfatizamos o uso de duas ferramentas para o projeto de um modelo MHE: 

* CART como a base arquitetural para tratar do problema da seleção do modelo. 

* algoritmo ME para resolver o problema da estimação paramétrica pela computação iterativa 
das estimativas por máxima verossimilhança dos parâmetros do modelo. 


Normalmente pode-se garantir que o algoritmo ME se mova de forma ascendente em verossimilhança. 
Assim, usando CART para inicializar o algoritmo ME na forma descrita na Seção 7.8, podemos 
esperar que o algoritmo ME produza um melhor desempenho de generalização do que seria possi- 
vel com a condição inicial estabelecida por CART. 

O algoritmo ME é importante e fundamental se a aplicação de interesse for de estimação por 
máxima verossimilhança, como no caso de modelagem. Uma aplicação interessante de modelagem 
é descrita em Jacobs, Jordan e Barto (1991b), onde um modelo ME é treinado para realizar a tarefa 
“a que/onde". Nesta tarefa, deseja-se que o modelo determine o que um objeto é e onde ele está no 
campo visual. Dois especialistas foram usados no estudo, cada um sendo especializado em um 
aspecto da tarefa. Para uma entrada especifica, ambos os especialistas geram saidas, Então, a rede 
de passagem decide a mistura apropriada para aquela entrada. Os bons resultados relatados por 
Jacobs et al. demonstram que é possível que uma atribuição de tarefa seja determinada de forma 
inata, não com base na tarefa em si, mas pela coincidência entre as necessidades da tarefa e as 
propriedades computacionais do modelo (Elman et al., 1996). 

Concluimos esta discussão retornando à outra classe de maquinas de comité estudada na pri- 
meira parte do capítulo. Enquanto o modelo ME ou o modelo МНЕ se basciam no uso de redes de 
passagem ativadas pelo sinal de entrada para fundir o conhecimento adquirido pelos diversos espe- 
cialistas do modelo, uma máquina de comité, baseada no uso da média de ensemble ou, alternativa- 
mente, de reforço, se baseia no próprio algoritmo de aprendizagem para realizar a integração, como 
resumido a seguir: 


i. A média de ensemble melhora o desempenho em relação a erros de um modo engenhoso pelo 
uso combinado de dois efeitos: 

e Redução de erro devido a bias pelo ajuste excessivo proposital dos especialistas individuais 
da máquina de comitê. 

* Redução de erro devido à variância pelo uso de diferentes condições iniciais no treinamen- 
to dos especialistas individuais e então calculando a média de ensemble de suas saídas. 

2, O reforço melhora o desempenho em relação a erros de uma forma engenhosa particular. Neste 
caso, exige-se que os especialistas individuais tenham um desempenho um pouco melhor que a 
estimativa aleatória. À aprendizagem fraca dos especialistas é convertida em aprendizagem 
forte, e assim o erro da máquina de comitê torna-se arbitrariamente pequeno. Esta notável con- 
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versão é realizada pela filtragem da distribuição dos dados de entrada de forma que os modelos 
de aprendizagem fraca (1.e., os especialistas) eventualmente aprendam a distribuição inteira, ou 
por amostragem repetida dos exemplos de treinamento de acordo com uma certa distribuição 
de probabilidade como no AdaBoost. A vantagem do AdaBoost sobre o reforço por filtragem é 
que ele trabalha com uma amostra de treinamento de tamanho fixo. 


NOTAS E REFERÊNCIAS 


1. Os métodos por media de ensemble são discutidos em Perrone (1993), onde uma extensa 
bibliografia sobre este assunto é incluida. Outras referências sobre este assunto incluem 
Wolpert (1992) e Hashem (1997). 

2. O usoda média de ensemble para o projeto de uma máquina de comité com um conjunto 
de diferentes condições iniciais foi sugerido por vários usuários de redes neurais. Entre- 
tanto, a análise estatística apresentada em Naftaly et al. (1997) e o procedimento lá 
desento para treinar uma máquina de comité projetada por média de ensemble sobre o 
espaço das condições iniciais parece ser a primeira do seu gênero. Naquele artigo, são 
apresentados resultados experimentais baseados nos dados de manchas solares e em 
dados de competição para previsão de energia, Em ambos os casos, é demonstrada uma 
redução significativa da variância tomando a média sobre o espaço de condições inici- 
ais. 

De acordo com Naftaly et al. (1997), o uso de restrições de treinamento populares 
como o decaimento de pesos e a parada antecipada não é recomendado no projeto de uma 
máquina de comitê por média de ensemble sobre o espaço de condições iniciais. 

3. Аз referências principais sobre a teoria de reforço e estudos experimentais relacionados, 
mais ou menos em ordem cronológica, são: Schapire (1990), Drucker et al, (1953, 1994), 
Freund (1995), Breiman (1996b), Freund e Schapire (19964, 1996b, 1997), Schapire (1997) 
é Schapire et al. (1997), As primeiras referências sobre as trés abordagens básicas de refor- 
co são: 

e Filtragem: Schapire (1990) 

*  Amostragem repetida: Freund e Schapire (19962) 

e Ponderação: Freund (1995) 

4. А idéia de usar uma mistura de especialistas para realizar uma função de mapeamento 
complexa foi primeiro discutida por Jacobs, Jordan, Nowlan e Hinton no seu artigo de 
1991а. O desenvolvimento deste modelo foi motivado por (1) uma proposta descrita em 
Nowlan (1990), vendo a adaptação competitiva na aprendizagem não-supervisionada como 
uma tentativa de ajustar uma mistura de distribuições de probabilidade simples (tais como 
gaussianas) a um conjunto de pontos de dado е (2) idéias desenvolvidas na tese de douto- 
rado de Jacobs (1990) usando uma arquitetura modular similar, mas com uma função de 
custo diferente. 

5. Os estimadores por máxima verossimilhança têm algumas propriedades desejáveis. Sob 
condições bastante gerais, as seguintes propriedades assintóricas podem ser provadas 
(Kmenta, 1971): 

(1) Os estimadores por maxima verossimilhança são consistentes. Considere que L(8) 
represente a função logaritmo de verossimilhança е que Ө represente um elemento do 
vetor parâmetro Ө. A derivada parcial d£/48, é denominada uma contagem. Dizemos 
que um estimador por máxima verossimilhança é consistente no sentido de que o 
valor que o valor de 8, para o qual a contagem d//08, é idéntica a zero, converge em 
probabilidade ao valor verdadeiro de Ө quando o tamanho da amostra usado na esti- 
mação tende a infinito. 
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(Ш) Os estimadores por máxima verossimilhança são axsintoficamente eficientes, [sto é, 


onde N é o tamanho da amostra, 8 é a estimativa por máxima verossimilhança de Ө, e 
[é o i-ésimo elemento da diagonal da inversa da matriz de informação de Fisher, A 
matriz de informação de Fisher é definida por 

















onde M é a dimensão do vetor parâmetro 8. 

{Ш) Os extimadores por maxima verossimilhança são assintoticamente gaussianos. Isto é, 
quando o tamanho da amostra se aproxima do infinito, cada elemento da estimativa 
por máxima verossimilhança Ө assume uma distribuição gaussiana, 

Na prática, constatamos que as propriedades para grandes amostras (1.e., assintóticas) dos 

estimadores por máxima verossimilhança são válidas para tamanhos de amostras N = 50. 

6  Oartigo de Newcomb (1886), considerando a estimação de parámetros de uma mistura de 
duas distribuições gaussianas univariadas, parece ser a primeira referência a um processo 
do tipo ME relatada na literatura. 

O nome “algoritmo ME" foi cunhado por Dempster, Laird e Rubin no seu artigo 
fundamental de 1977. Naquele artigo, foi apresentada pela primeira vez a formulação do 
algoritmo ME para calcular estimativas por máxima verossimilhança de dados incomple- 
tos em vários níveis de generalidade. 

O primeiro relato unificado sobre a teoria, metodologia e aplicações do algoritmo 
ME, sua história e extensões for apresentado em forma de livro por McLachlan e Krishnan 
(1997). 

7. Sob condições razoavelmente gerais, os valores de verossimilhança calculados pelo 
algoritmo ME convergem para valores estacionários. Wu (1983) apresenta um relato deta- 
lhado sobre as propriedades de convergência do algoritmo ME. Entretanto, à algoritmo 
ME mem sempre resulta em um máximo local ou global de função de verossimilhança. No 
Capítulo 3 do livro de McLachlan e Krishnan (1997), são apresentados dois exemplos em 
que isto não acontece. Em um exemplo o algoritmo converge para um ponto de sela, e no 
outro exemplo o algoritmo converge para um minimo local da função de verossimilhança. 

8. O algoritmo ME pode tambén tratar a máxima estimação a posteriori (MAP) bayesiana 
incorporando informação prévia ao vetor parámetro; veja o Problema 7.11. Usando a regra 
de Bayes, podemos expressar a função de densidade de probabilidade para o vetor parâmetro 
B. dado um conjunto de observações x, como 


puta! х) = (510/900) 
2 Ax) 


Desta relação, vemos facilmente que maximizar a densidade a priori / (Өх) é equivalente 
a maximizar о produto f,(x|B (Ө), pois f, (x) é independente de B. А função densidade de 
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onde 
K(8, 8) = E[log Krid, 6)] 
Com isso, mostre que 
Цёт + 1)- оди) = |0[& 1,66 - 080.6] 
[r (00 + 19,800) - (860,80) 


(b) A desigualdade de Jensen afirma que se f-) é uma função convexa e u é uma variável 
aleatória, então 


E[giu)] 2 gi E[u]) 


onde Е é o operador expectativa; além disso, se g(-) € estritamente convexa, então a 
igualdade nesta relação implica que u = Efu] com probabilidade 1 (Cover e Thomas, 
1991). 

Usando a desigualdade de Jansen, mostre que 


K(G(n1), 8(n)) - K(6(n), Bay) s 0 


Com isso, mostre que а Equação (7,52) é válida para n = 0, 1, 2,.... 
O algoritmo ME é facilmente modificável para acomodar a máxima estimativa a posteriori 
(MAP) de um vetor parámetro B. Usando a regra de Bayes, modifique o passo E e o passo 
M do algoritma ME para fornecer esta estimação. 
Para um MHE treinado com o algoritmo ME e um MLP treinado com o algoritmo de 
retropropagação para fomecer um nivel de desempenho similar para uma dada tarefa, es- 
perariamos intuitivamente que a complexidade do MHE superasse aquela do MLP. Argu- 
mente a favor ou contra a plausibilidade desta afirmação. 
Justifique as relações entre as variáveis indicadoras e as probabilidades a posteriori des- 
critas nas Equações (7.66) a (7.68). 
A Equação (7.75) descreve os minimos quadrados ponderados para a otimização das redes 
especialistas do modelo MHE da Figura 7.11, assumindo que a resposta desejada d seja 
um escalar. Como se modifica esta relação para o caso de uma resposta desejada 
multidimensional? 
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Anålise de Componentes Principais 


8.1 INTRODUÇÃO 


Uma importante característica das redes neurais é a habilidade que elas tém de aprender a partir do 
seu ambiente e, através da aprendizagem, melhorar o desempenho de algum modo. Nos quatro 
capitulos anteriores, o enfoque foi nos algoritmos para aprendizagem supervisionada, para os quais 
um conjunto de alvos de interesse é fornecido por um professor externo. Os alvos tomam a forma de 
um mapeamento de entrada-saída desejado, que a rede deve aproximar. Neste capítulo e nos próxi- 
mos três, estudamos algoritmos para aprendizagem auto-organizada ou aprendizagem não-super- 
visionada. O objetivo de um algoritmo para aprendizagem auto-organizada é descobrir padrões 
significativos ou caracteristicas nos dados de entrada e fazer esta descoberta sem um professor. Para 
fazer isto, o algoritmo dispõe de um conjunto de regras de natureza local, que o capacitam a apren- 
der a calcular um mapeamento de entrada-saida com propriedades desejáveis específicas, o termo 
“local” significa que a modificação aplicada ao peso sináptico de um neurônio é confinada à vizi- 
nhança imediata daquele neurônio. À modelagem das estruturas de rede usadas para a aprendiza- 
gem auto-organizada tende a seguir as estruturas neurobiológicas de uma maneira muito mais ex- 
tensa do que na aprendizagem supervisionada. Isto não deve causar surpresa, porque o processo de 
organização de rede é fundamental para a organização do cérebro. 

A estrutura de um sistema auto-organizável pode assumir uma variedade de formas diferentes. 
Ela pode, por exemplo, consistir de uma camada de entrada (fonte) e uma camada de saida (de 
representação), com conexões alimentadas para frente da entrada para a saída e conexões laterais 
entre neurônios na camada de saída. Um outro exemplo é uma rede alimentada adiante com múlti- 
plas camadas, na qual a auto-organização procede na forma de camada por camada. Em ambos os 
exemplos, o processo de aprendizagem consiste em modificar repetidamente os pesos sinápticos de 
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PRINCÍPIO 4. Ordem e estrutura nos padrões de informação representam informação redundante 
que é adquirida pela rede neural na forma de conhecimento, que é um pré-requisito necessário para 
a aprendizagem auto-organizada. 


Parte deste conhecimento pode ser obtido por observações dos parâmetros estatísticos como a mé- 
dia, à vanância e a matriz de correlação dos dados de entrada. 

Os Principios de 1 a 4 sobre aprendizagem auto-organizada fornecem a base neurobiológica 
para os algoritmos adaptativos para a análise de componentes principais neste capítulo e para o 
mapa auto-organizável de Kohonen apresentado no próximo capitulo. Estes principios são também 
incorporados em muitos outros modelos auto-organizados que são motivados por considerações 
neurobiológicas. Um desses modelos que merece ser mencionado é o modelo de Linsker do sistema 
visual dos mamiferos (Linsker, 1986). 


Análise de Características Auto-Organizadas 


O processamento de informação no sistema visual é realizado em estágios. Em particular, caracte- 
rísticas simples como contraste e orientação de bordas são analisadas nos estágios iniciais do siste- 
ma, enquanto que características complexas mais elaboradas são analisadas em estágios mais avan- 
gados. A Figura 8,1 mostra a estrutura geral de uma rede modular que se assemelha ao sistema 
visual. No modelo de Linsker, os neurônios da rede na Figura 8.1 estão organizados em camadas 
bidimensionais, com conexões locais para frente de uma camada para a seguinte. Cada neurônio 
recebe informação de um número limitado de neurônios localizados em uma região correspondente 
da camada anterior, que constitui o campo receptivo daquele neurônio. Os campos receptivos da 
rede desempenham um papel crucial no processo de desenvolvimento sináptico porque eles tornam 
possivel para neurônios em uma camada responder a correlações espaciais das atividades neurais 
na camada anterior. São feıtas duas pressuposições de natureza estrutural: 


FIGURA 8.1 Planta de uma rede 
modular auto-adaptativa 
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1. As posições das conexões sinápticas são fixas para todo o processo de desenvolvimento neuronal, 
uma vez que elas tenham sido escolhidas. 
2. Cada neurônio atua como um combinador linear. 


O modelo combina aspectos da modificação sináptica segundo Hebb com aprendizagem cooperati- 
va e competitiva de tal forma que as saídas da rede discriminam otimamente entre um conjunto de 
entradas, com a aprendizagem auto-organizada sendo realizada em uma forma camada por cama- 
da. Isto é, o processo de aprendizagem permite que as propriedades de análise de características 
auto-organizadas se desenvolvam totalmente antes de prosseguir para a próxima camada. Em Linsker 
(1986), são apresentados resultados de simulação qualitativamente similares às propriedades en- 
contradas nos estágios iniciais do processamento visual em gatos e macacos. Reconhecendo a natu- 
reza altamente complexa do sistema visual, é realmente notável que o modelo simples considerado 
por Linsker seja capaz de desenvolver neurônios para análise de caracteristicas. Não se espera que 
os neurônios para análise de características no sistema visual dos mamiferos se desenvolvam 
exatamente da maneira descrita pelo modelo de Linsker. O ponto principal é que tais estruturas 
podem ser produzidas por uma rede em camadas relativamente simples cujas conexões sinápticas se 
desenvolvem de acordo com a forma hebbiana de aprendizagem. 

Nosso interesse primordial neste capítulo, entretanto, se concentra na análise de componentes 
principais e como ela pode ser realizada usando-se sistemas auto-organizáveis baseados na aprendi- 
zagem hebbiana. 


8.3 ANÁLISE DE COMPONENTES PRINCIPAIS 


Um problema comum em reconhecimento estatístico de padrões é a seleção das caracteristicas ou 
extração de caracteristicas. À seleção de caracteristicas se refere a um processo no qual um espaço 
de dados é transformado em um espaço de características que, em teoria, tem exatamente a mesma 
dimensão que o espaço original de dados. Entretanto, a transformação é projetada de tal forma que 
o conjunto de dados pode ser representado por um número reduzido de caracteristicas “efetivas” e 
ainda reter a maioria do conteúdo de informação intrinseco dos dados; em outras palavras, o con- 
junto de dados sofre uma redução de dimensionalidade. Para sermos mais especificos, suponha que 
tenhamos um vetor x de dimensão m e desejemos transmiti-lo usando / números, onde / < m. Se 
simplesmente truncarmos o vetor x, causaremos um erro médio quadrado igual à soma das variâncias 
dos elementos eliminados de x. Assim, fazemos a seguinte pergunta: existe uma transformação 
linear inversiva T tal que o truncamento de Tx seja ótimo no sentido do erro médio quadrado? 
Claramente, a transformação T deve ter a propriedade que alguns de seus componentes tenham 
baixa variância. À andlise de componentes principais (também conhecida como a transformação 
de Karhunen-Loéve na teoria da comunicação) maximiza a taxa de redução da variância e é, portan- 
to, a escolha correta. Neste capítulo, derivamos algoritmos de aprendizagem baseados na aprendi- 
zagem hebbiana que podem realizar análise de componentes principais! sobre o vetor de dados de 
interesse. 

Considere que X represente um vetor aleatório de dimensão m representando o ambiente de 
interesse. Assumimos que o vetor aleatório X tem média zero: 


E[X] - 0 


onde E é o operador estatístico valor esperado. Se X tiver uma média não-nula, subtraimos a média 
antes de prosseguirmos com a análise. Considere que q represente um vetor unitário, também de 
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(a Rq - A(ôg)'g = 0 


ou equivalentemente, 


(ба) (Rq - Aq) = 0 (8.12) 


Para que valha a condição da Eq. (8.12), é necessário e suficiente ter 


Rq = Aq (8.13) 


Esta é a equação que governa os vetores unitários q para os quais а prova de variância dq) tem 
valores extremos. 

A Equação (8.13) é reconhecida como o problema do autovalor, usualmente encontrado na 
álgebra linear (Strang, 1980). О problema tem soluções não-triviais (i.e., q +0) apenas para valores 
especiais de À que são chamados os autovalores da matriz de correlação R. Os valores associados 
de q são chamados autovetores. Uma matriz de correlação é caracterizada por autovalores reais 
não-negativos. Os autovetores associados são únicos, assumindo que os autovalores são distintos. 
Considere que os autovalores da matriz R m-por-m sejam representados por A. Magos A, e que os 
autovetores associados sejam representados por q, Q,....; Q respectivamente. Podemos então es- 
crever 


Rq, = Aq, j21,2..m (8.14) 
Considere que os autovalores correspondentes estejam arranjados em ordem decrescente 
MM ee >А e >A (8.15) 


de forma que À = А. Considere que os autovetores associados sejam usados para construir uma 
matriz m=por-m: 


Q = [ч qe, Os U] (8.16) 


Podemos então combinar o conjunto de m equações representado em (8.14) em uma única equação: 


КО = QA (8.17) 
onde A é uma matriz diagonal definida pelos autovalores da matriz R: 


A = diag[Ã, A. A A,] (8.18) 


J n 


A matriz Q é uma matriz ortogonal (unitária) no sentido que seus vetores coluna (i.e., os autovetores 
de R) satisfazem as condições de ortonormalidade: 


da, jui (8.19) 
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onde À >A >--- >A, 
Para a saida do neurônio /, temos o valor limite 


limy (п) = x (ma, = q;x(n) (8.95) 


Considere que Y (n) represente uma variável aleatória com uma realização representada pela saída 
yin). A correlação cruzada entre as variáveis Yin) e Y (n) em equilibrio é dada por 


lim E[ 7,795, (m)]= Efa} XG)X" (m9, | 


ar 
=q; Rq, (8.96) 
zh k=j 


= 


O, kj 


Assim, podemos afirmar que no equilíbrio o algoritmo hebbiano generalizado da Eq. (8,91) atua 
como um auto-analisador dos dados de entrada. 

Considere que X(n) represente o valor particular do vetor de entrada xr) para o qual as con- 
dições limites da Eq. (8.92) são satisfeitas para | = / — 1. Assim, da forma matricial da Eq. (8.80), 
constatamos que no limite 


(m)= Y у (п), (8.97) 


Isto significa que dados dois conjuntos de quantidades, os valores limites q,, q,...., q, dos vetores de 
pesos sinápticos dos neurônios na rede alimentada adiante da Fig. 8.5 е as saídas correspondentes 
y (71), vn)... y (01), podemos então construir uma estimativa linear de mínimos quadrados X(n) do 
vetor de entrada x(n). De fato, a fórmula da Eq. (8.97) pode ser vista como uma fórmula para 
reconstrução de dados, como mostrado na Fig. 8.8. Note que, com base na discussão apresentada 
na Seção 8,3, este método de reconstrução de dados está sujeito a um vetor de erro de aproximação 
que é ortogonal à estimativa x(m). 


FIGURA 8.8 Representação por grafo 
de fluxo de sinal de como è calculado a 
wetor reconstruido X 





Resumo do AHG 


Os cálculos envolvidos no algoritmo hebbiano generalizado (AHG) são simples; podem ser resumi- 
dos como segue: 


I. Inicialize os pesos sinápticos da rede, iw., com valores pequenos no tempo n = 1. Atribua um 
pequeno valor positivo ao parámetro da taxa de aprendizagem т. 
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FIGURA 8.9 (а) Uma imagem de pais usada no experimento de codificação de 
imagem. (b) Máscaras В x B representando os pesos sinápticos aprendidos pelo 
AHG. (c) Imagem reconstruida dos pais obtida usando-se as B componentes princi- 
pais dominantes sem quantização. (d) Imagem reconstruida dos pais com razão de 
compressão de 15 para 1 usando quantização 


Para uma variação da primeira imagem, aplicamos a seguir o algoritmo hebbiano generalizado 
à imagem de uma cena de oceano mostrada na Fig. 8.10a. Esta segunda imagem enfatiza a informa- 
ção textural. A Figura 8.10b mostra as máscaras 8 x 8 dos pesos sinápticos aprendidos pela rede 
procedendo da mesma maneira descrita acima; note a diferença entre estas máscaras e aquelas da 
Fig. 8.9b. A Figura 8.10c mostra a imagem reconstruída da cena de oceano com base nas 8 compo- 
nentes principais dominantes sem quantização. Para estudar o efeito da quantização, as saidas das 
primeiras duas máscaras foram quantizadas usando-se 5 bits cada, a terceira com 3 bits e as restan- 
tes 5 máscaras com 2 bits cada. Assim, foi necessário um total de 23 bits para codificar cada bloco 
8 x 8 de pontos, resultando em uma taxa de bits de 0,36 bits por ponto. А Figura 8.10d mostra a 
imagem reconstruida da cena de oceano, usando suas próprias máscaras quantizadas na maneira 
descrita acima. А razão de compressão desta imagem foi de 22 para 1. 

Para testar o desempenho de “generalização” do algoritmo hebbiano generalizado, finalmente 
usamos as máscaras da Fig. 8.9b para decompor a cena de oceano da Fig. 8.10a e então aplicamos o 
mesmo procedimento de quantização que foi usado para gerar a imagem reconstruida da Fig. 8.10d. 
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O resultado desta reconstrução de imagem é mostrado na Fig. 8.10e com uma razão de compressão 
de 22 para |, a mesma que a da Fig. 8.10d. Enquanto que as imagens reconstruídas nas Figuras 
8.10d e 8.10: guardam uma concordância surpreendente entre si, pode-se ver que a Fig. 8.104 
possui uma maior quantidade de informação textural “verdadeira” e, portanto, aparenta ser menos 
“quadriculada” que a Fig. 8.10e. A razão para este comportamento está nos pesos da rede. Para o 
treinamento realizado com as imagens dos pais e da cena de oceano, os primeiros quatro pesos sáo 
muito similares. Entretanto, para a imagem dos pais os quatro pesos finais codificam informação de 
borda, mas no caso da cena de oceano estes pesos codificam informação textural. Assim, quando 
ocorre a codificação da cena de oceano com os pesos do tipo de borda, a reconstrução dos dados 
texturais é grosseira, resultando assim uma aparéncia quadriculada. 


8.7 ANÁLISE DE COMPONENTES PRINCIPAIS 
ADAPTATIVA USANDO INIBIÇÃO LATERAL 


O algoritmo hebbiano generalizado descrito na seção anterior se baseia no uso exclusivo de cone- 
xões para frente para a análise de componentes principais. Nesta seção, descrevemos um outro 
algoritmo chamado de extração adaptativa de componentes principais (APEX, adaptive principal 
components extraction (Kung e Diamantaras, 1990; Diamantaras e Kung, 1996). O algoritmo APEX 
usa tanto conexões para frente como para trás.” O algoritmo é de natureza iterativa na medida em 
que, se fornecermos as primeiras (j — 1) componentes principais, a j-ésima componente principal é 
facilmente calculada. 

A Figura 8.11 mostra o modelo de rede usado para a derivação do algoritmo APEX. Como 
anteriormente, o vetor de entrada x tem dimensão m, com suas componentes representadas por x,, 
Ху X,. Assume-se que cada neurônio da rede seja linear. Como mostrado па Fig. 8.11, há na rede 
dois tipos de conexões sinápticas: 





FIGURA 8.11 Rede com conexóes para de entrada j 
frente e conexões laterais para a deriva- Camada 
ção do algoritmo APEX de saida 


* Conexões para frente dos nås de entrada para cada neurônio 1, 2,..., com j < m. As cone- 
xões para frente рага o neurônio j são de particular interesse; estas conexões são represen- 


tadas pelo vetor peso para frente 


w,= [w (n), ww, (n)..... wm] 
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Espaço de 
x Espaço de рих) caracteristicas 
entrada (dados) 





# Р Autowetor 





(a) (b) 


FIGURA 8.13 Ilustração da ACP por núcleo. (a) Espaço de entrada bidimensional, mostrando um conjunto de pontos 
de dados. (b) Espaço de características bidimensional, mostrando as imagens induzidas dos pontos de dados 
congragadas em torno de um autovetor principal. Ås linhas tracejadas uniformemente espaçadas na parte (b) repra- 
sentam contornos de projeções constantes sobre o autovetor; os contomos correspondentes são náo-lineares no 
espaço de entrada 


Para nücleos de produto interno definidos de acordo com o teorema de Mercer, estamos basi- 
camente realizando ACP em um espaço de caracteristicas de dimensão m, onde a dimensão m, ё 
um parámetro de projeto. Todas as propriedades da ACP ordinária que estão descritas na Seção 8.3 
continuam valendo para a ACP por núcleo. Em particular, a ACP por núcleo é linear no espaço de 
características, mas não-linear no espaço de entrada. Assim, ela pode ser aplicada a todos aqueles 
dominios onde a ACP ordinária tem sido usada para extração de características ou redução de da- 
dos, para os quais a extensão não-linear faça sentido. 

No Capítulo 6, apresentamos trés métodos para construir nücleos de produto interno que fo- 
ram baseados no uso de polinômios, funções de base radial e funções hiperbólicas; veja a Tabela 
6.1. A questão de como selecionar o núcleo mais adequado para uma dada tarefa (1.c., o espaço de 
caracteristicas apropriado) é um problema em aberto (Schólkopf, 1997). 


Resumo da ACP por Núcleo 


1. Dados os exemplos de treinamento {x 1^ ,, calcule a matriz por núcleo N-por-N, К = хх) i 


onde 
K(x,x) = qx a x) 
2. Resolva o problema de autovalor: 
Ka = Aa 
onde À é um autovalor da matriz de núcleo К e at é o autovetor associado. 


3. Normalize os autovetores assim calculados exigindo que 


| 
ada ==, kzl2,..n 
kk A, 
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onde A, é o menor autovalor diferente de zero da matriz K, assumindo que os autovalores 
estejam arranjados em ordem decrescente. 
4, Para a extração das componentes principais de um ponto de teste x, calcule as projeções 


a, = @,ф(х) 
н 
= Y a, ,К(х„х), k = [шр 
del 


onde at, é o j-ésimo elemento do autovetor Qt. 


Exemplo 8.3 


Para fornecer uma compreensão intuitiva sobre a operação da ACP por núcleo, mostramos na Fig. 8.14 os 
resultados de um experimento simples descrito em Schölkopf et al. (1998). Os dados bidimensionais, consis- 
tindo de componentes x, e x, usados neste experimento foram gerados como segue: os valores x, têm uma 
distribuição uniforme no intervalo [-1, 1]. Os valores x, são não linearmente relacionados com os valores x, 
pela fórmula: 


=ri+; 
XX, tu 


Autowalor-0,570 — Autovalor=0,552 





"TRU ñ, 100 Autovilared, 621 
ni 


ll). 


ШШЕ will naminal 
1 


























o 0 1 0 1 0 1 
mel IHN) ala Autovalor 006 — Autovalor=0,02 1 
= r z ER 


FIGURA 8.14 Exemplo bidimensional ilustrando a ACP por nücleo. Da 
esquerda para а direita, o grau polinomial do núcleo à d= 1, 2, 3, 4, De 
cima para baixo, são mostrados os primeiros três autovetores no espaço 
de caracteristicas. A primeira coluna corresponde à ACP ordinária o as 
outras três colunas correspondem à ACP por núcleo com grau polinomial d 
= 2, 3, 4. (Roproduzido com permissão do Dr. Klaus-Robert Müller.) 


onde + é um ruído aditivo gaussiano de média zero e variância 0,04. 
Os resultados da ACP mostrados na Fig. 8.14 foram obtidos usando-se polinômios de núcleo: 


K х) = (жх). d=1,2,3,4 
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onde d = | corresponde à ACP linear, e d = 2, 3, 4 corresponde à ACP por núcleo. А ACP linear, mostrada à 
esquerda da Fig. 8.14, resulta em apenas dois autovalores, pois a dimensionalidade do espaco de entrada é 
dois. A ACP por núcleo, ao contrário, permite a extração de componentes de ordem mais alta, como mostrado 
pelos resultados apresentados nas colunas 2, 3 e 4 da Fig. 8.14, correspondentes ao grau polinomial d = 2, 3, 
4, respectivamente. As linhas de contorno mostradas em cada parte da figura (exceto para o autovalor zero no 
caso de ACP linear) representam os valores principais constantes (i.e, as projeções constantes sobre o autovetor 
associado com o autovalor em questão). 
Com base nos resultados mostrados na Fig. 8.14, fazemos as seguintes observações: 


е Como esperado, a ACP linear falha em fornecer uma representação adequada dos dados de entrada 
não-lineares. 

в Em todos os casos, a primeira componente principal varia monotonamente ao longo de uma parábola 
que passa pelos dados de entrada. 

+ Na ACP por nücleo, a segunda e a terceira componentes principais exibem um comportamento que 
aparenta ser um tanto similar para diferentes valores de graus polinomiais d. 

е Мо саѕо do grau polinomial d = 2, a terceira componente principal da ACP por núcleo parece captar 
a vanância devido ao ruido aditivo gaussiano v. Removendo a contribuição devido a esta componen- 
te, estariamos de fato realizando alguma forma de redução de ruido. 

m 


8.11 RESUMO E DISCUSSÃO 


Neste capítulo, apresentamos elementos sobre a teoria da análise de componentes principais e o uso 
de redes neurais para sua implementação. Agora é apropriado refletirmos sobre estes elementos e 
perguntarmos: qual é a utilidade da análise de componentes principais? A resposta a esta questão 
depende, é claro, da aplicação de interesse. 

Se o objetivo principal é realizar boa compressão de dados preservando o máximo possível de 
informação sobre as entradas, o uso da análise de componentes principais oferece um procedimento 
útil de aprendizagem auto-organizada. Aqui notamos do material apresentado na Seção 8.3 que o 
uso de um método de decomposição em subespaco baseado nas “primeiras / componentes princi- 
pais” dos dados de entrada fornece um mapeamento linear, que é ótimo no sentido de que ele 
permite a reconstrução dos dados de entrada originais, otimizando em relação ao erro médio qua- 
drado. Além disso, uma representação baseada nas primeiras / componentes principais é preferivel 
frente a uma representação arbitrária em subespaço, porque as componentes principais dos dados 
de entrada são naturalmente ordenadas em autovalor decrescente ou, equivalentemente, em variância 
decrescente. Conseqüentemente, podemos otimizar o uso da análise de componentes principais 
para compressão de dados empregando a maior precisão em umérica possível para codificar a pri- 
meira componente principal da entrada e progressivamente passando a empregar menor precisão 
para codificar as / — | componentes restantes. 

Uma questão relacionada a isso é a representação de um conjunto de dados constituído de uma 
agregação de vários agrupamentos. Para os agrupamentos serem individualmente visíveis, a separa- 
ção entre eles deve ser maior que o espalhamento interno dos agrupamentos. Se acontecer de existir 
apenas poucos agrupamentos no conjunto de dados, então os eixos principais dominantes encontra- 
dos usando a análise de componentes principais tenderá a escolher projeções de agrupamentos com 
boas separações, fornecendo assim uma base efetiva para a extração de características. 

Neste último contexto, mencionamos uma aplicação útil de um analisador de componentes 
principais como o pré-processador para uma rede neural supervisionada (p.ex., um perceptron de 
múltiplas camadas treinado com o algoritmo de retropropagação). Aqui a motivação é acelerar a 
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2. Com base na noção 1, a extração de uma forma a partir de padrões de sombra é reduzida ao 
problema muito mais simples de estimação paramétrica em um espaço de baixa 
dimensionalidade. 


Por exemplo, a estrutura grosseira da forma de uma cabeça humana é invariavelmente a mesma, no 
sentido de que todas as pessoas têm narizes representando protuberâncias, órbitas oculares repre- 
sentando depressões, e testas e bochechas representando regiões planas. Esta invariância sugere que 
qualquer face dada, expressa como (Ө) em coordenadas cilindricas, pode ser descrita como a 
soma de duas componentes: 


(6,1) = r (8,7) + p(8,1) 


onde r (6,7) representa uma cabeça média para uma determinada categoria de pessoas (p.ex., ho- 
mens adultos ou mulheres adultas), e p(8,/) representa perturbações que capturam a identidade de 
uma pessoa particular. Tipicamente, p(0,/) é pequeno comparado com ғ (8,1). Para representar р(Ө,/), 
Atick et al. utilizam a análise de componentes principais, na qual as flutuações são representadas 
em termos de um conjunto de autofunções (i.e, a contrapartida bidimensional dos autovetores). Em 
Atick et al. (1996), são apresentados resultados demonstrando a habilidade da abordagem hierár- 
quica de dois estágios em recuperar a superficie tridimensional para uma dada pessoa de uma única 
imagem bidimensional daquela pessoa. 


NOTAS E REFERÊNCIAS 


1. А análise de componentes principais (ACP) talvez seja a técnica mais antiga e mais bem 
conhecida de análise multivariada (Jolliffe, 1986; Preisendorfer, 1988). Ela foi introduzida 
primeiro por Pearson (1901), que a usou em um contexto biológico para dispor a análise 
de regressão linear em uma nova forma. Ela foi então desenvolvida por Hotelling (1993) 
em um trabalho sobre psicometria. Ela apareceu novamente e independentemente na for- 
mulação da teoria das probabilidades, como considerada por Karhunen (1947), e foi gene- 
ralizada posteriormente por Loéve (1963). 

2. Ås abordagens seguidas por Ljung (1977) e Kushner e Clark (1978) para estudar o com- 
portamento dinâmico de um algoritmo de aproximação estocástica reduzem o problema 
ao estudo da dinâmica de uma equação diferencial associada, Entretanto, estas duas abor- 
dagens são fundamentalmente diferentes, À abordagem de Ljung envolve o uso de uma 
função de Lyapunov, enquanto que a abordagem seguida por Kushner e Clark envolve um 
processo de interpolação linear e invoca o chamado teorema de Arzelä-Ascoli (Dunford e 
Schwartz, 1965). A abordagem de Kushner e Clark é seguida em Diamantaras e Kung 
(1996) para estudar a convergência do autofiltro máximo baseado na aprendizagem 
hebbiana. As conclusões obtidas ali são as mesmas que as obtidas usando a abordagem de 
Ljung. 

3. Fúldiak (1989) expandiu a configuração de rede neural para análise de componentes prin- 
cipais incluindo conexões realimentadas anti-hebbianas. A motivação para esta modifica- 
ção foi derivada de um trabalho anterior de Barlow e Földiak (1989) sobre adaptação e 
eliminação de correlação no córtex visual; ali foi demonstrado que se os neurônios 
interagirem de acordo com uma regra anti-hebbiana, então as saidas dos neurônios defi- 
nem um sistema de coordenadas no qual não Һа correlações mesmo quando os sinais inci- 
dentes tenham fortes correlações. 

O uso de inhições laterais entre neurônios de saída foi também proposto por Rubner 
e Tavan (1989) e Rubner e Schulten (1990). Entretanto, ao contrário do modelo proposto 
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por Földiak, a rede lateral considerada por Rubner et al. não é simetricamente conectada. 

Em vez disso, a rede lateral é hierárquica, com o neurônio é (digamos) inibindo todos os 

outros neurônios na modelo exceto para 1, 2,..., – 1, onde i= 1, 2,.... 

O modelo APEX estudado em Kung e Diamantaras (1990) tem a mesma topologia de 
rede que a do modelo de Rubner et àl., mas usa a терга de aprendizagem de neurónio único 
de Oja (descrita na Seção 8.4) para ajustar os pesos sinápticos tanto das conexões para 
frente como das conexões laterais do modelo. 

Uma prova rigorosa da convergência do algoritmo APEX, com todos os neurônios tenden- 

do a convergir em conjunto, é dada em Chen e Liu (1992). 

Para uma discussão de vários modelos neurais para análise de componentes principais ё 

sua comparação, veja o livro de Diamantaras e Kung (1996). 

Os métodos de ACP não-lineares, excluindo ACP por núcleo, podem ser agrupados em 

trés classes (Diamantaras e Kung, 1996): 

+ Redes hebbianas, que são obtidas substitumdo-se os neurônios lineares nos algoritmos 
ACP baseados na aprendizagem hebbiana por neurônios não-lineares {Karhunen е 
Joutsensalo, 19951, 

+ Redes replicadoras ou auto-codificadoras, que são construidas em tomo de perceptrons 
de múltiplas camadas: as redes replicadoras são discutidas no Capitulo 4. 

“Curvas principais, que são baseadas em uma estimação iterativa de uma curva ou 
superficie que captura a estrutura dos dados (Hastic e Stuelzle, 1989). Em Ritter et al. 
(1992) e Cherkassky e Mulier (1995), é mostrado que o mapa auto-organizävel de 
Kohonen pode ser visto como um procedimento computacional para encontrar uma 
aproximação discreta das curvas principais, os mapas auto-organizáveis são discuti- 
dos no próximo capítulo. 


PROBLEMAS 


Autofiltro máximo baseado na aprendizagem hebbiana 


8.2 


Ra 


Para o filtro casado considerado no Exemplo 8.2, o autovalor A, e o autovetor associado q, 
são definidos por 


A, slc 
а =в 


Mostre que estes parâmetros satisfazem a relação hásica 


Rq, = Àq, 


onde R é a matriz de correlação do vetor de entrada X. 
Considere o autofiltro máximo onde o vetor peso w(n) evolui de acordo com a Eq. (8.46). 
Mostre que a variância da saida do filtro se aproxima de A. quando т se aproxima do 
infinito, onde À ёо maior autovalor da matriz de correlação do vetor de entrada. 
A anülise de componentes menores (ACM) é о oposto da análise de componentes princi- 
pais. Na ACM, procuramos encontrar aquelas direções que minimizam a variância da 
projeção. As direções que são assim encontradas são os autovetores correspondentes aos 
menores (minimos) autovalores da matriz de correlação R do vetor de entrada X(n). 
Neste problema, exploramos a forma de modificar o único neurônio da Seção 8.4, de 
modo a encontrar a componente menor de R. Em particular, trocamos o sinal na regra de 
aprendizagem da Eq. (8.40), obtendo (Xu et al, 1992) 
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wn 1) = win) = pon) утуо em) 


Mostre que se o menor autovalor da matriz de correlação R for A, com multiplicidade I, 
então 


lim win) = rq, 
onde q, é o autovetor associado com A. 


Análise de componentes principais baseada na aprendizagem hebbiana 


8.4 Construa um grafo de fluxo de sinal para representar as Eqs. de valor vetorial (8.87) € 
(3.88 

8.5 A abordagem por equação diferencial ordinária para a análise de convergência descrita na 
Seção 8.4 não se aplica adiante ao algoritmo de aprendizagem hebbiana generalizado (АНС). 
Entretanto, expressando a matriz de peso sináptico W(n) na Eq. (8.91) como um vetor 
constituido das colunas individuais de Win), podemos interpretar a função de atualização 
hi.) na maneira usual, e então aplicar o teorema da estabilidade assintótica. Assim, com 
base no que foi dito aqui, explore o teorema da convergência para o algoritmo de aprendi- 
zagem hebbiana generalizado. 

86 Neste problema, exploramos o uso do algoritmo hebbiano generalizado para estudar os 
campos receptivos bidimensionais produzidos por uma entrada aleatória (Sanger, 1990). A 
entrada aleatória consiste de um campo bidimensional de ruído gaussiano independente 
com média zero e vanância unitária, que é convoluido com uma máscara (filtro) gaussiana 
e então multiplicado por uma janela gaussiana, À máscara gaussiana tem um desvio pa- 
drão de 2 pontos (pixels), e a janela gaussiana tem um desvio padrão de & pontos. A entra- 
da aleatória resultante x(r, s) na posição (+, s) pode assim ser escrita como segue: 


x(r, 5) = mir, Ser, s) + wr. 5)] 


onde wir, s} é o campo de ruido gaussiano independente e identicamente distribuido, gr, 
5) ёа máscara gaussiana e mir, s) é a função da janela gaussiana, A convolução circular de 
gír, s) e wir, ғ) é definida por 
N-L NL 
gir.s)* arr) = x Y stp. gyuxr — p,s — 4) 
peli quê 
onde assume-se que gir, 5) e mr, s) são periódicas. 

Use 2000 exemplos da entrada aleatória x(r, s) para treinar uma rede alimentada para 
frente de camada única utilizando o algoritmo hebbiano generalizado, A rede tem 4096 
entradas arranjadas como uma grade de 64 x 64 pontos, e 16 saídas. Os pesos sinápticos 
resultantes da rede treinada são representados como um arranjo de 64 x 64 números, Rea- 
lize os cálculos descritos aqui e mostre os 16 arranjos dos pesos sinápticos como máscaras 
bidimensionais, Comente os seus resultados. 

8.7 А Equação (8.113) define a versão transformada da equação de atualização (8.106) para 
calcular o vetor de peso realimentado а (л). A transformação é bascada na definição do 
vetor peso sináptico w (n) em termos dos m modos principais da rede dada na Eq. (8.109), 
Derive a Eq. (8.113). 

8.8 Considere a matriz do sistema da Eq. (8.116), representada pelo grafo de fluxo de sinal da 
Fig. 8.12 que corresponde a 1 = £ € j —- I. 

(a) Formule a equação característica desta matriz 2 x 2. 
(b) Mostre que a matriz tem um autovalor duplo. 
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(c) Justifique a afirmação de que todos os modos principais da rede têm o mesmo autovalor. 

8.9 О АНС usa apenas conexões para frente, enquanto que o algoritmo APEX usa tanto cone- 
xões para frente como conexões laterais, Apesar destas diferenças, o comportamento de 
convergência а longo prazo do algoritmo APEX é, em teoria, exatamente o mesmo que 
aquele do AHG. Justifique a validade desta afirmação. 


ACP por núcleo 


8.10 — Considere que К , Tepresente a contrapartida centrada do ij-ésimo elemento А ,da matriz 
de núcleo К. Mostre que (Schülkopf, 1997) 


= 1 W : 
К, = K, De dele) Xe et) 


x Le (x, xXx) 


zal dm 


Sugira uma representação compacta desta relação na forma matricial. 

8.11 Mostre que a normalização do autovetor @ da matriz de núcleo К é equivalente à exigência 
de que a Eq. (8.153) seja satisfeita, 

812 Resuma as propriedades da АСР por núcleo. 


CAPÍTULO 9 


Mapas Auto-Organizáveis 


9.1 INTRODUÇÃO 


Neste capitulo, continuamos nosso estudo dos sistemas auto-organizáveis considerando uma classe 
especial de grades neurais conhecidas como mapas auto-organizäveis. Estas grades são baseadas na 
aprendizagem competitiva, os neurônios de saída da grade competem entre si para serem ativados 
ou disparados, com o resultado que apenas um neurônio de saida, ou um neurônio por grupo, está 
ligado em um instante de tempo. Um neurônio de saida que vence a competição é chamado de um 
neurônio vencedor leva tudo ou simplesmente um neurônio vencedor. Uma forma de induzir uma 
competição do tipo “o vencedor leva tudo” entre os neurônios de saida é usar conexões laterais 
inibitórias (i.e, caminhos de realimentação negativa) entre eles, esta idéia foi originalmente pro- 
posta por Rosenblatt (1958) 

Em um mapa auto-organizável, os neurônios estão colocados em nós de uma grade que é 
normalmente uni- ou bidimensional. Mapas de dimensionalidade mais alta são também possíveis, 
mas não são tão comuns. Os neurônios se tornam seletivamente sintonizados a vários padrões de 
entrada (estímulos) ou classes de padrões de entrada no decorrer de um processo de aprendizagem. 
As localizações dos neurônios assim sintonizados (i.e, os neurônios vencedores) se tomam ordena- 
das entre si de forma que um sistema de coordenadas significativo para diferentes caracteristicas de 
entrada é criado sobre a grade (Kohonen, 1990), Um mapa auto-organizável é, portanto, caracteri- 
zado pela formação de um mapa topográfico dos padrões de entrada no qual as localizações espa- 
ciais (Le., coordenadas) dos neurônios na grade são indicativas das características estatisticas 
intrínsecas contidas nos padrões de entrada, dai o nome “mapa auto-organizável”. 

Como modelo neural, o mapa auto-organizável fornece uma ponte entre dois níveis de adapta- 
ção: 


* Regras de adaptação formuladas ao nível microscópico de um único neurônio, 
e Formação de padrões de seletividade de caracteristicas experimentalmente melhores e fisi- 
camente acessíveis ao nivel microscópico de camadas neurais. 
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Devido a um mapa auto-organizável ser merentemente náo-linear, ele pode ser visto como uma 
generalização não-linear da análise de componentes principais (Ritter, 1995). 

O desenvolvimento de mapas auto-organizáveis como modelo neural é motivado por uma 
característica distintiva do cérebro humano: o cérebro está organizado em vários lugares de modo 
que entradas sensoriais diferentes são representadas por mapas computacionais ordenados 
topologicamente. Em particular, entradas sensoriais como a táctil (Kaas et al, 1983), a visual (Hubel 
e Wiesel, 1962, 1977) e a acústica (Suga, 1985) são mapeadas para áreas diferentes do córtex cere- 
bral de uma maneira topologicamente ordenada. Assim, o mapa computacional constitui um bloco 
construtivo básico na infra-estrutura de processamento de informação do sistema nervoso, Um mapa 
computacional é definido por um arranjo de neurônios representando processadores ou filtros ajus- 
tados de forma um pouco diferente entre si, que operam paralelamente sobre os sinais que carregam 
informação. Consegüentemente, os neurônios transformam sinais de entrada em uma distribuição 
de probabilidade codificada por localização que representa os valores calculados de parámetros 
por posições de máxima atividade relativa dentro do mapa (Knudsen et al., 1987), A informação 
assim derivada é de uma forma que pode ser facilmente acessada por processadores de ordem mais 
elevada usando esquemas de conexão relativamente simples. 


Organização do Capítulo 


O material apresentado neste capítulo sobre mapas computacionais está organizado como segue. 
Na Seção 9.2, descrevemos dois modelos de mapeamento de caracteristicas, que de seu modo pecu- 
liar são capazes de explicar ou capturar as caracteristicas essenciais de mapas computacionais no 
cérebro, Os dois modelos diferem entre si na forma das entradas utilizadas. 

O resto do capítulo é devotado a considerações detalhadas de um destes modelos, usualmente 
referido como um "mapa auto-organizável” proposto por Kohonen (1982). Na Seção 9.3, usamos 
considerações neurobiológicas para desenvolver um formalismo matemático do modelo de Kohonen. 
Um resumo do modelo é apresentado na Seção 9.4. Propriedades importantes do modelo são descri- 
tas na Seção 9,5, que é seguida por simulações computacionais na Seção 9.6, Finalmente, o desem- 
penho do mapa de caracteristicas pode ser ajustado finamente através de uma técnica supervisiona- 
da conhecida como quantização vetorial por aprendizagem, esta técnica é descrita na Seção 9.7. A 
Seção 9.8 descreve um experimento computacional sobre classificação adaptativa de padrões que 
combina o uso de quantização vetorial por aprendizagem e o mapa auto-organizável. Na Seção 9.9, 
descrevemos a quantização vetorial hierárquica construida em torno do mapa auto-organizável para 
compressão de dados. A Seção 9.10 descreve uma outra aplicação do mapa auto-organizável para 
construir mapas contextuais que encontram aplicações em categorização não-supervisionada de 
classes de fonemas a partir de texto, sensoriamento remoto e exploração de dados. O capitulo con- 
clui com algumas considerações finais na Seção 9.12. 


9.2 DOIS MODELOS BÁSICOS DE MAPEAMENTO 
DE CARACTERISTICAS 


Qualquer um que examine um cérebro humano fica impressionado com a extensão que o córtex 
cerebral ocupa no cérebro. O cérebro é quase totalmente envolvido pelo córtex cerebral, que obscu- 
rece as outras partes. Do ponto de vista apenas da complexidade, o córtex cerebral provavelmente 
supere qualquer outra estrutura conhecida no universo (Hubel e Wiesel, 1977), O que é igualmente 
impressionante é o modo como diferentes entradas sensoriais (motora, somestésica, visual, auditi- 
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va, etc.) são mapeadas para áreas correspondentes do córtex cerebral de uma forma ordenada; para 
avaliar este ponto, veja os mapas cito-arquiteturais do córtex cerebral na Fig. 2.4, O uso de mapas 
computacionais oferece as seguintes propriedades (Knudsen et al., 1987): 


« Em cada estágio de representação, cada parte da informação incidente é mantida no seu 
próprio contexto. 

е Neurdnios que lidam com partes relacionadas de informação estão próximos entre si de 
modo a poderem interagir através de conexões sinápticas curtas. 


Nosso interesse se concentra na construção de mapas topográficos artificiais que aprendem através 
de auto-organização de uma maneira inspirada na neurobrologia. Neste contexto, o ponto que emer- 
ge da breve discussão sobre mapas computacionais no cérebro é o principio da formação de mapas 
topográficos, que pode ser formulado como (Kohonen, 1990a): 


A localização espacial de um neurônio de saida em um mapa topográfico corresponde a um dominio 
ou característica particular do dado retirado do espaço de entrada. 


Este principio forneceu a motivação neurobiológica para dois modelos de mapeamento de caracte- 
risticas' diferentes descritos aqui. 

A Fig. 9.1 mostra a planta dos dois modelos. Em ambos os casos, os neurômos de saida estão 
arranjados em uma grade bidimensional. Este tipo de topologia assegura que cada neurônio tenha 
um conjunto de vizinhos. Os modelos diferem entre si no modo como os padrões de entrada são 
especificados. 

O modelo da Fig. 9.1a foi originalmente proposto por Willshaw è von der Malsburg (1976) 
sobre bases biológicas para explicar o problema do mapeamento retinotópico da retina para o córtex 
visual (nos vertebrados superiores). Especificamente, há duas grades bidimensionais separadas de 
neurônios conectadas entre si, uma delas se projetando sobre a outra. Uma grade representa os 
neurônios pre-sinäpticos (de entrada) e a outra grade representa os neurônios pós-sinápticos (de 
saida). A grade pós-sináptica utiliza um mecanismo excitatório de curto alcance bem como um 
mecanismo inibitório de longo alcance. Estes dois mecanismos são de natureza local e são cruciais 
para a auto-organização. As duas grades são conectadas entre 51 por sinapses modificáveis do tipo 
hebbiano. À rigor, portanto, os neurônios pós-sinápticos não são do tipo o vencedor leva tudo; em 
vez disso, é usado um limiar para assegurar que apenas poucos neurônios pós-sinápticos dispararão 
em um determinado instante. Além disso, para evitar um constante aumento dos pesos sinápticos 
que pode levar à instabilidade da grade, o peso total associado com cada neurônio pós-sináptico é 
limitado por uma condição de limite superior.” Assim, para cada neurônio, alguns pesos sinápticos 
aumentam enquanto que outros diminuem. A idéia básica do modelo de Willshaw-von der Malsburg 
ё que à proximidade geométrica de neurônios pré-sinápticos seja codificada na forma de correla- 
ções na sua atividade elétrica, e usar estas correlações na grade pós-sináptica de forma a conectar 
neurônios pré-sinápticos vizinhos com neurônios pós-sinápticos vizinhos. Dessa forma, um 
mapeamento topologicamente ordenado é produzido por auto-organização. Note, entretanto, que o 
modelo de Willshaw-von der Malsburg é especializado em mapeamentos nos quais a dimensão de 
entrada é a mesma que a dimensão de saida. 

O segundo modelo da Fig. 9.1b, introduzido por Kohonen (1982), não pretende explicar deta- 
lhes neurobiológicos, O modelo captura as caracteristicas essenciais dos mapas computacionais do 
cérebro e ainda se mantém tratável do ponto de vista computacional” O modelo de Kohonen apa- 
rentemente é mais geral que o modelo de Willshaw-von der Malsburg na medida em que ele é capaz 
de realizar compressão de dados (1.e., redução da dımensionalidade na entrada). 
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(a) Modelo de Willshüw-von der Malsburg 


Meurönto 
vencedor 


Arránjo bidimenstonal de 
neurônios pús-sinápticos 
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FIGURA 9.1 Dois mapas auto- 
(b) Modelo de Kohonen organizados de caracteristicas 


Na realidade, o modelo de Kohonen pertence à classe de algoritmos de codificação vetorial, O 
modelo produz um mapeamento topológico que localiza otimamente um número fixo de vetores 
(i.e., palavras de código) em um espaço de entrada de dimensionalidade mais elevada, e desse modo 
facilita a compressão de dados, O modelo de Kohonen pode, portanto, ser derivado de dois modos. 
Podemos utilizar as idéias básicas da auto-organização, motivadas por considerações neurobiológicas, 
para derivar o modelo, que é a abordagem tradicional (Kohonen, 1982, 19903, 1997a). Alternativa- 
mente, podemos usar uma abordagem de quantização vetorial que usa um modelo envolvendo um 
codificador e um decodificador, que é motivada por considerações da teoria de comunicação (Luttrell, 
1989h, 19912). Neste capítulo, consideramos ambas as abordagens. 

O modelo de Kohonen recebeu muito mais atenção na literatura que o modelo de Willshaw- 
von der Malsburg. Ele possui certas propriedades discutidas mais adiante no capítulo, que o tornam 
particularmente interessante para a compreensão e a modelagem de mapas corticais no cérebro, O 
restante do capitulo dedica-se à derivação do mapa auto-organizável, suas propriedades básicas e 
ramificações. 


9.3 О MAPA AUTO-ORGANIZÁVEL 


O principal objetivo do mapa auto-organizável (SOM, self-organizing map) é transformar um pa- 
drão de sinal incidente de dimensão arbitrária em um mapa discreto uni- ou bidimensional e realizar 
esta transformação adaptativamente de uma maneira topologicamente ordenada, 
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A Figura 9,2 mostra o diagrama esquemático de uma grade bidimensional de neurónios nor- 
malmente usada como o mapa discreto. Cada neurónio da grade está totalmente conectado com 
todos os nós de fonte da camada de entrada. Esta grade representa uma estrutura alimentada adiante 
com uma única camada computacional consistindo de neurônios arranjados em linhas e colunas. 
Uma grade unidimensional é um caso especial da configuração representada na Fig. 9.2: neste caso 
especial, a camada computacional consiste simplesmente de uma única coluna ou linha de neurônios, 

Cada padrão de entrada apresentado à grade consiste tipicamente de uma região localizada ou 
"foco" de atividade contra um fundo em repouso. A localização e a natureza deste foco usualmente 
variam de uma realização do padrão de entrada para outra, Todos os neurônios da grade devem, 
portanto, ser expostos a um número suficiente de diferentes realizações do padrão de entrada para 
assegurar que o processo de auto-organização tenha uma chance de amadurecer apropriadamente. 

O algoritmo responsável pela formação do mapa auto-organizável começa primeiramente 
inicializando os pesos sinápticos da grade, Isto pode ser feito atribuindo-lhes valores pequenos 
tomados de um gerador de números aleatórios, fazendo dessa forma, nenhuma organização prévia 


Camada de | 
nús de fonte 
| 


E 
ESESESESs 


FIGURA 9.2 Grade bidimensional de neurânios 


é imposta ao mapa de caracteristicas. Uma vez que a grade tenha sido apropriadamente inicializada, 
há três processos essenciais envolvidos na formação do mapa auto-organizável, como resumido 
aqui: 


1. Competição. Para cada padrão de entrada, os neurônios da grade calculam seus respectivos 
valores de uma função discriminante, Esta função discriminante fornece a base para a competi- 
ção entre os neurônios, O neurônio particular com o maior valor da função discriminante é 
declarado vencedor da competição. 

2. Cooperação. O neurônio vencedor determina a localização espacial de uma vizinhança topológica 
de neurônios excitados, fornecendo assim a base para à cooperação entre os neurônios vizinhos. 

3. Adaptação Sináptica. Este último mecanismo permite que os neurônios excitados aumentem 
seus valores individuais da função discriminante em relação ao padrão de entrada através de 
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FIGURA 9.3 Função de 
vizinhança gaussiana 





onde o vetor discreto r, define a posição do neurônio excitado j e r, define a posição discreta do 
neurônio vencedor i, sendo ambos medidos no espaço de saida discreto. 

Uma outra caracteristica única do algoritmo SOM é que o tamanho da vizinhança topológica 
diminui com o tempo. Esta exigência é satisfeita fazendo-se com que a largura o da função de 
vizinhança topológica h diminua com o tempo. Uma escolha popular para a dependência de с com 
o tempo discreto n é o decaimento exponencial descrito por (Ritter et al., 1992; Obermayer et al., 
1991) 


H \ 
st») «e, exp - | Hu 012... (9.6) 
L T 


onde c, é o valor de с na inicialização do algoritmo SOM, e t, é uma constante de tempo. Conse- 
qüentemente, a vizinhança topológica assume uma forma variável no tempo, como mostrado por 


Й QU) = ex[- LA 5) nz0,1.2,... (9.7) 


onde Gir) é definido pela Eq. (9.6). Assim, quando o tempo л (1.e., o número de iterações) aumenta, 
a largura Gim) decresce a uma taxa exponencial e a vizinhança topológica diminui de uma maneira 
correspondente. De agora em diante, nos referiremos a h, am como a função de vizinhança. 

Um outro modo útil de ver a variação da função de vizinhança й, (n) em torno de um 
neurônio vencedor х} ё como segue (Luttrell, 19898). O propósito de um ЙА) largo é 
essencialmente correlacionar as direções das atualizações dos pesos de um grande número de 
neurônios excitados da grade, Quando a largura de А, (я) é diminuida, também diminui o 
número de neurônios cujas direções de atualização são correlacionadas. Este fenómeno se tor- 
na particularmente óbvio quando o treinamento de um mapa auto-organizável é executado em 
uma tela de computador. É um desperdício de recursos computacionais mover um grande nü- 
mero de graus de liberdade em torno de um neurônio vencedor de forma correlacionada, como 
no caso do agoritmo SOM padrão. Em vez disso, é muito melhor usar uma forma de treinamen- 
to SOM normalizada, na qual trabalhamos com um número bem menor de graus de liberdade 
normalizados. Esta operação é facilmente realizada na forma discreta tendo uma função de 
vizinhança й. (n) de largura constante, mas gradualmente aumentando o número total de 
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neurônios. Os novos neurônios são inseridos na metade da distância entre os neurônios antigos, e a 
suavidade do algoritmo SOM garante que os novos neurônios se insiram na adaptação sináptica de 
uma maneira suave (Luttrell, 19894). Um resumo do algoritmo SOM normalizado é apresentado no 
Problema 9.13. 


O Processo Adaptativo 


Agora chegamos ao último processo, o processo adaptativo sináptico, na formação auto-organizada 
de um mapa de características. Para que a grade seja auto-organizável, é necessário que o vetor de 
peso sináptico w do neurônio / da grade se modifique em relação ao vetor de entrada x. À questão é 
como fazer esta modificação. No postulado de aprendizagem de Hebb, um peso sináptico é aumen- 
tado com uma ocorrência simultánea de atividades pré-sináptica e pós-sináptica. O uso de tal regra 
é muito adequado para aprendizagem associativa. Entretanto, para o tipo de aprendizagem não- 
supervisionada considerado aqui a hipótese hebbiana na sua forma básica não é satisfatória pelas 
seguintes razões: as modificações das conectividades ocorrem apenas em uma direção, o que leva 
no final todos os pesos à saturação. Para superar este problema, modificamos a hipótese hebbiana 
incluindo um ferma de esquecimento — giy Jw, onde w, ё o vetor peso sináptico do neurônio j е 
giv) é uma função escalar positiva da resposta y. A única exigência imposta à função 20) é que o 
termo constante da expansão em série de Taylor de g(y)) seja zero, de modo que podemos escrever 


gy) =) para у= 0 (9.8) 


O significado desta exigência se tornará aparente brevemente. Dada esta função, podemos então 
expressar a modificação do vetor peso do neurônio j da grade como segue: 


Аз = Tv x- g(v w, (9.9) 


onde тү é o parámetro da taxa de aprendizagem do algoritmo. O primeiro termo do lado direito da 
Eq. (9.9) é o termo hebbiano e o segundo termo é o termo de esquecimento. Para satisfazer a exigén- 
cia da Eq. (9.8), escolhemos uma função linear para EU), como mostrado por 


g0) = Ту, (9.10) 
Podemos simplificar mais а Eq. (9.9) fazendo 
у= А (9.11) 
Usando as Egs. (9.10) е (9.11) ет (9.9), obtemos 


Aw = nh, ax X- w) (9.12) 
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computacionais de uma grade. Suponha que Ф represente uma transformação náo-lincar chamada 
de mapa de caracteristicas, que mapeia o espaço de entrada X para о espaço de saída sf, como 
mostrado por 


ФЕ > al (9.15) 


A Equação (9.15) pode ser vista como uma abstração da Eq. (9,3) que define a localização de um 
neurônio vencedor i(x) surgido em resposta ao vetor de entrada x. Por exemplo, em um contexto 
neurobiológico, o espaço de entrada & pode representar o conjunto de coordenadas de receptores 
somestésicos densamente distribuidos sobre a superficie inteira do corpo. Correspondentemente, o 
espaço de saida A representa o conjunto de neurônios localizados naquela camada do córtex cere- 
bral à qual os receptores somestésicos estão confinados. 

Dado um vetor de entrada x, o algoritmo SOM primeiro identifica um neurônio com o melhor 
casamento ou neurônio vencedor i(x) no espaço de saida , de acordo com o mapa de caracteristi- 
cas Ф. O vetor peso sináptico w do neurônio (x) pode então ser visto como um ponteiro para aquele 
neurônio no espaço de entrada ; isto é, os elementos sinápticos do vetor w, podem ser vistos como 
as coordenadas da imagem do neurónio i projetada no espaço de entrada. Estas duas operações são 
mostradas na Fig. 9.4. 

О mapa de caracteristicas Ф tem algumas propriedades importantes: 





. 9 9» 9 P P OP Y 
a. b b 5 е & 
ai. е е E 9 ë 
X 
aa е 8 $ B Espaço de saida 
* * 5» & аё discreto A 

.* E e ë ë 
Мара de ë зва 
caracteristicas Ф .... 


Espaço de entrada 
FIGURA 8.4 Ilustração continu JE 
da relação entre O mapa 
de caracteristica Ф a o 
vetor de paso w do 


neurônio vencedor r 


Propriedade І. Aproximação do Espaço de Entrada. O mapa de caracteristicas Ф, representa- 
do pelo conjunto de vetores de pesos sinápticos {мр no espaço de saida dl, fornece uma hoa 
aproximação para o espaço de entrada X. 

O objetivo básico do algoritmo SOM é armazenar um conjunto grande de vetores de entrada x 
e X, encontrando um conjunto menor de protótipos w e zl, de modo a fornecer uma boa aproxima- 
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aD, 


Jle) = 


-[ df (rte — с(х))(х — x'(e)) (9.21) 


P 


Assim, com base nas Eqs. (9.20) e (9.21), as condições 1 e 2 formuladas anteriormente para o 
algoritmo de Lloyd generalizado devem ser modificadas como segue (Luttrell, 1 989b): 


Condição 1. Dado o vetor de entrada x, escolha o código e = e(x) para minimizar a medida de 
distorção 


D, =f draiv х - x'(e(x) +l (9.22) 


Condição IL. Dado o código e, calcule o vetor reconstruido х (с) para satisfazer a condição 


| аху (хуле — e(x))x 
MG | > зз + (9.23) 


| dxf, (x me — e(x)) 


A Equação (9.23) é obtida fazendo-se a derivada parcial dO /dx'(e) na Eq. (9.21) igual a zero е 
então resolvendo-se para x'(c). 

O modelo descrito na Fig. 9.5 pode ser visto como um caso especial daquele mostrado na Fig. 
9.6. Em particular, se fizermos a função de densidade de probabilidade ir} do ruido u igual a uma 
função delta de Dirac Ñin), as condições I e II se reduzem às condições | e 2 para o algoritmo de 
Lloyd generalizado, respectivamente. 

Para simplificar a condição |, assumimos que miv) é uma função suave de р. Com isso pode-se 
mostrar que, para uma aproximação de segunda ordem, a medida de distorção D, definida na Eq. 
(9.22) consiste de duas componentes (Luttrell, 1989b): 


* O termo de distorção convencional, definido pela distorção de erro quadrado ||x — x (c) 
= Um termo de curvatura que surge do modelo de ruido tie) 


Assumindo que o termo de curvatura seja pequeno, a condição I para o modelo da Fig. 9.6 pode ser 
aproximada pela condição | para o modelo sem ruido da Fig. 9.5. Por sua vez, isto reduz a condição 
| a uma regra de codificação por vizinho mais próximo, como anteriormente. 

No caso da condição IT, podemos realizá-la usando aprendizagem por descida estocástica. Em 
particular, escolhemos vetores de entrada x aleatoriamente do espaço de entrada # usando o fator 
lx (х) e atualizamos o vetor reconstruido x (c) como segue (Luttrell, 1989b): 


x' UO m X aue + male — ele — x' 


Dini 


(0)] (9.24) 


velha 


onde 1] é o parámetro da taxa de aprendizagem e e(x) é a aproximação da condição 1 por codificação 
por vizinho mais próximo. À equação de atualização (9.24) é obtida por inspeção da derivada 
parcial na Eq. (9.21). Esta atualização é aplicada a todo е, para o qual temos 
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nie- c(x)) > 0 (9.25) 


Podemos considerar o procedimento de descida do gradiente descrito na Ед. (9.24) como um modo 
de minimizar a medida de distorção D, da Eq. (9.19). Isto é, as Eqs. (9.23) e (9.24) são essencial- 
mente do mesmo tipo, exceto pelo fato de que (9.23) é por lote e (9.24) é continua (i.e., na forma 
fluente). 

A equação de atualização (9.24) é idêntica ao algoritmo (continuo) SOM da Eq. (9.13), tendo 
em mente as correspondências listadas na Tabela 9,1, Conseqüentemente, podemos afirmar que o 
algoritmo de Lloyd generalizado para quantização vetorial é a versão com treinamento por lote do 
algoritmo SOM com tamanho de vizinhança zero; para vizinhança zero, mO) = |. Note que рага 
obtermos o algoritmo de Lloyd generalizado da versão por lote do algontmo SOM, não necessita- 
mos fazer qualquer aproximação porque os termos de curvatura (e os termos de ordem mais alta) 
não contribuem quando a vizinhança tem largura zero. 


TABELA 9.1 Correspondência entre o Algoritmo SOM e o Modelo da Fig. 9.6 
Modelo de Codificação 


€ Decodificação da Fig. 9.6 Algoritmo SOM 

Codificador elx) Meurónio com melhor casamento x) 
Vetor reconstruido x (e) Vetor peso sináptico w, 

Função de densidade de probabilidade mie = e(x)) Função de vizinhança А, xii 





Os pontos importantes a notar da discussão apresentada aqui são: 


e Oalgoritmo SOM é um algoritmo de quantização vetorial, que fornece uma boa aproxima- 
ção para o espaço de entrada %, Este ponto de vista fornece uma outra abordagem para 
derivar o algoritmo SOM, como exemplificado pela Eq. (9.24). 

e De acordo com este ponto de vista, a função de vizinhança A, no algoritmo SOM tem a 
forma de uma função de densidade de probabilidade. Em Luttrell (199 la), um modelo 
gaussiano de média zero é considerado apropriado para o ruido ё no modelo da Fig. 9.6. 
Temos assim também uma justificativa teórica para adotar a função de vizinhança gaussiana 
da Ед. (9.4). 


O algoritmo SOM por lote" é meramente uma reformulação da Eq. (9.23), com os somatórios usa- 
dos para aproximar as integrais no numerador e no denominador no lado direito da equação. Note 
que nesta versão do algoritmo SOM a ordem na qual os padrões de entrada são apresentados à rede 
não tem efeito sobre a forma final do mapa de caracteristicas, e não hà necessidade para uma vari- 
ação da taxa de aprendizagem. Mas o algoritmo ainda requer o uso de uma função de vizinhança. 


Propriedade 2. Ordenação Topológica. O mapa de caracteristicas P calculado pelo algoritmo 
SOM é ordenado de modo topológico, no sentido de que a localização espacial de um neurônio na 
grade corresponde a um dominio particular ou característica dos padrões de entrada, 

A propriedade de ordenação topológica” é uma conseguência direta da equação de atualiza- 
ção (9.13) que força o vetor peso sináptico w, do neurônio vencedor i(x) a se mover em direção ao 
vetor de entrada x. Ela também tem o efeito de mover os vetores de pesos sinápticos w, dos 
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neurônios mais próximos / junto com o neurônio vencedor (х). Podemos, portanto, visualizar o 
mapa de caracteristicas Ф como uma rede elastica ou virtual com a topologia de uma grade um- 
ou bidimensional como prescrito no espaço de saida A, e cujos nós têm pesos como coordenadas 
no espaço de entrada X (Ritter, 1995). O objetivo global do algoritmo pode assim ser formulado 
como: 


Aproximar o espaço de entrada X por ponteiros ou protótipos na forma de vetores de pesos sinápticos 
w de tal forma que o mapa de caracteristicas Ф forneça uma representação fiel das caracteristicas 
importantes dos vetores de entrada x € X em termos de um certo critério. 


O mapa de caracteristicas Ф é normalmente mostrado no espaço de entrada 2. Especificamente, 
todos os ponteiros (i.e., vetores de pesos sinápticos) são mostrados como pontos, e os ponteiros dos 
neurónios vizinhos são conectados com linhas de acordo com a topologia da grade. Assim, usando 
uma linha para conectar dois ponteiros w e w, estamos indicando que os neurônios corresponden- 
tes [ej são neurônios vizinhos na grade. 


Propriedade 3. Casamento de Densidade. O mapa de caracteristicas O reflete variações na es- 
tatistica da distribuição de entrada: regiões no espaço de entrada Y de onde vetores de amostra x 
são retirados com uma alta probabilidade de ocorrência são mapeadas para domínios maiores do 
espaço de saida Al, e portanto com melhor resolução que regiões em A das quais vetores de amos- 
tra x são retirados com uma baixa probabilidade de ocorrência. 

Considere que f(x) represente a fdp multidimensional do vetor de entrada aleatório X. Esta 
fdp, integrada sobre todo o espaço de entrada #, deve ser igual à unidade, por definição: 


| fs(x)ydx =1 


Considere que mix) represente o fator de magnificação do mapa, definido como o número de 
neurônios em um pequeno volume dx do espaço de entrada Æ. O fator de magnificação, integrado 
sobre o espaço de entrada X, deve conter o número total / de neurônios na rede, como mostrado por 


| mix dx =] (9.26) 


* 


Para o algoritmo SOM etetuar o casamento exato com a densidade de entrada, é necessário que 
( Amari, 1980) 


mix) = f(x) (2.27) 


Esta propriedade implica que se uma região particular do espaço de entrada contém estimulos que 
ocorrem frequentemente, ela será representada por uma área maior no mapa de caracteristicas que 
uma região do espaço de entrada onde os estimulos ocorrem menos freqüentemente. 

Geralmente em mapas de características bidimensionais, o fator de magnificação m(x) não 
pode ser expresso como uma função simples da função de densidade de probabilidade f(x) do vetor 
de entrada x. Apenas no caso de um mapa de características unidimensional é possível derivar tal 
relação. Para este caso especial, constatamos que, ao contrário da suposição anterior (Kohonen, 
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1982), o fator de magnificação m(x) não é proporcional a f(x). Dois resultados diferentes são 
relatados na literatura, dependendo do método de codificação defendido: 


1. Codificação por minima distorção, pela qual são mantidos os termos de curvatura e todos os 
termos de ordem mais alta na medida de distorção da Eq. (9.22) devido ao modelo de ruido 
mir). Este método de codificação produz o resultado 


mix) се f '(x) (9.28) 


que é o mesmo resultado obtido para o quantizador vetorial padrão (Luttrell, 19912). 

2. Codificação por vizinho mais proximo, que emerge se os termos de curvatura forem ignorados, 
como na forma padrão do algoritmo SOM. Este método de codificação produz o resultado 
(Ritter, 1991) 


mix) == fa (X) (9.29) 


Ainda é válida a nossa afirmação anterior que um agrupamento de estímulos de entrada 
frequentemente ocorrente é representado por uma área maior no mapa de caracteristicas, embora 
em uma versão distorcida da condição ideal descrita na Eq. (9.27). 

Como regra geral (confirmada por simulações computacionais), o mapa de características 
calculado pelo algoritmo SOM tende a representar excessivamente regiões de baixa densidade de 
entrada e a representar insuficientemente regiões de alta densidade de entrada. Em outras palavras, 
o algoritmo SOM falha em fornecer uma representação fiel da distribuição de probabilidade intrin- 
seca dos dados de entrada. '^ 


Propriedade 4. Seleção de características. 4 partir de dados do espaço de entrada com uma 
distribuição não-linear, o mapa auto-organizavel é capaz de selecionar um conjunto das melhores 
caracteristicas para aproximar a distribuição subjacente. 

Esta propriedade é uma culminância natural das propriedades 1 a 3. Ela nos faz lembrar a idéia 
da análise de componentes principais que é discutida no capitulo anterior, mas com uma diferença 
importante como ilustrado na Fig. 9.7. Na Fig. 9.7a, mostramos uma distribuição bidimensional de 
pontos com média zero resultante de um mapeamento de entrada-saida linear corrompido por ruído 
aditivo. Nesta situação, a análise de componentes principais funciona muito bem: ela nos diz que a 
melhor descrição da distribuição "linear" da Fig. 9.7a é definida por uma linha reta (i.e, um 
"hiperplano" unidimensional) que passa pela origem e corre paralelamente ao autovetor associado 
com o maior autovalor de matriz de correlação dos dados, Considere a seguir a situação descrita na 
Fig. 9,7b, que é o resultado de um mapeamento de entrada-saida não-lingar corrompido por ruido 
aditivo de média zero. Nesta segunda situação, é impossível para uma aproximação por linha reta 
calculada por análise de componentes principais fornecer uma deserção aceitável dos dados. Por 
outro lado, o uso de um mapa auto-organizável construido sobre uma rede unidimensional de 
neurônios é capaz de superar este problema de aproximação em virtude de sua propriedade de 
ordenação topológica. Esta última aproximação é ilustrada na Fig. 9.76. 

Em termos precisos, podemos afirmar que mapas de caracteristicas auto-organizáveis forne- 
cem uma aproximação discreta das assim chamadas curvas principais" ou superficies principais 
(Hastie e Stuetzle, 1989), e podem, portanto, ser vistos como uma generalização não-linear da 
análise de componentes principais. 
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9.6 SIMULAÇÕES COMPUTACIONAIS 


Grade Bidimensional Acionada por uma Distribuição Bidimensional 


llustramos o comportamento do algoritmo SOM usando simulações computacionais para estudar 
uma rede com 100 neurônios, arranjados na forma de uma grade bidimensional com 10 linhas e 10 
colunas. A rede é treinada com um vetor de entrada bidimensional x, cujos elementos x, e x, estão 
uniformemente distribuídos na região {{—1 = x, € +1}; El <x,<=+1 Para inicializar a rede, os 
pesos sinápticos são escolhidos de um conjunto aleatório. ў 

A Fig. 9.8 mostra trés estágios do treinamento através do qual а rede aprende а representar a 
distribuição de entrada. A Figura 9.84 mostra а distribuição de dados usada para treinar o mapa de 
caracteristicas. A Figura 9.8b mostra os valores iniciais dos pesos sinápticos, escolhidos aleatoriamen- 
te. As Figuras 9.8c e 9 Sd apresentam os valores dos vetores de pesos sinápticos, traçados como pontos 
no espaço de entrada, após a conclusão das fases de ordenação e convergência, respectivamente, As 
linhas desenhadas na Fig. 9.8 conectam neurónios vizinhos (através de linhas e colunas) da rede. 
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FIGURA 9.8 (а) Distribuição dos dados de entrada. (b) Condição inicial da grade bidimensional. 
(c) Condição da grade no final da fase de ordenação. (d) Condição da grade no final da fase de 
convergéncia 


Os resultados mostrados na Fig. 9.8 demonstram a fase de ordenação e a fase de convergência 
que caracterizam o processo de aprendizagem do algoritmo SOM, Durante a fase de ordenagáo, o 
mapa se desdobra para formar uma malha, como mostrado na Fig. 9.8c. Os neurônios são mapeados 
na ordem correta ao final desta fase. Durante a fase de convergência, o mapa se estende para preen- 
cher o espaço de entrada. Ao final desta segunda fase, mostrada na Fig. 9.8d, a distribuição estatis- 
tica dos neurônios no mapa se aproxima daquela dos vetores de entrada, exceto por alguns efeitos 
de horda. Comparando o estado final do mapa de caracteristicas na Fig. 9.8d com a distribuição 
uniforme da entrada na Fig. 9.8a, vemos que o ajuste do mapa durante a fase de convergência 
capturou as irregularidades locais que podem ser vistas na distribuição de entrada. 

A propriedade de ordenação topológica do algoritmo SOM está bem ilustrada na Fig. 9.8d. 
Em particular, observamos que o algoritmo (após a convergéncia) captura a topologia intrinseca da 
distribuição uniforme na entrada. Nas simulações computacionais apresentadas na Fig. 9.8, tanto o 
espaço de entrada # como o espaço de saida så são bidimensionais. 


Grade Unidimensional Acionada por uma Distribuição Bidimensional 


Examinamos agora o caso quando a dimensão do espaço de entrada Æ é maior que a dimensão do 
espaço de saida sl. Apesar deste descasamento, o mapa de características Ф é frequentemente capaz 
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FIGURA 8.10 (a) Decaimento exponencial do parámetro da tunção de vizinhança cim. (b) Decaimento exponencial 
do parámetro da taxa de aprendizagem nimi. (c) Forma inicial da fungäo de vizinhança gaussiana. (d) Forma da 
função de vizinhança na final da fase de ordenação [i.e., início da fase de consergéncia) 


uma grade unidimensional. O parámetro da função de vizinhança Gin) mostrado na Fig. 9.10a, 
começa com um valor inicial б, = 18 e então diminui para aproximadamente | em 1000 iterações 
durante a fase de ordenação, Durante esta mesma fase, o parâmetro da taxa de aprendizagem түт) 
começa com um valor inicial n, = 0,1 e então decresce para 0,037. A Figura 9.10c mostra a distri- 
buição gaussiana inicial de neurônios em tomo do neurônio vencedor localizado no ponto médio da 
grade unidimensional. A Figura 9.10d mostra a forma da função de vizinhança no final da fase de 
ordenação, Durante a fase de convergência, o parámetro da taxa de aprendizagem decresce linear- 
mente de 0,037 a 0,001 em 5000 iterações. Durante a mesma fase, a função de vizinhança decresce 
essencialmente à zero. 

As especificações da fase de ordenação e da fase de convergência para as simulações 
computacionais da Fig. 9.8 envolvendo a grade bidimensional são similares áquelas usadas para a 
grade unidimensional, exceto pelo fato de que a função de vizinhança é agora bidimensional. 
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O parâmetro (1) começa com um valor inicial о, = 3 e então decresce para 0,75 em 1000 iterações, 
A Figura 9.11 mostra o valor inicial da função de vizinhança gaussiana bidimensional À (4), para O, 
= 3 e um neurônio vencedor centrado no ponto (7, 8) dentro da grade bidimensional de 10 x 10 
neurônios. 


Neurônio vencedor 





FIGURA 8.11 Condição inicial da função de vizinhança gaussiana bidimensional centrada em um neurónio venca- 
dor localizado no ponto (7, 8) em uma grade bidimensional de 10 x 10 nourónios 


9.7 QUANTIZACAO VETORIAL POR APRENDIZAGEM 


A quantização vetorial, discutida anteriormente na Seção 9.6, é uma técnica que explora a estrutura 
subjacente dos vetores de entrada para o propósito de compressão de dados (Gersho e Gray, 1992). 
Especificamente, um espaço de entrada é dividido em um número de regiões distintas, e para cada 
região é definido um vetor de reconstrução. Quando um novo vetor de entrada é apresentado ao 
quantizador, é determinada inicialmente a região na qual o vetor se encontra, e ela ё então represen- 
tada pelo vetor de reprodução para aquela região. Com isso, utilizando uma versão codificada deste 
vetor de reprodução para armazenamento ou transmissão no lugar do vetor de entrada original, 
pode-se obter uma considerável economia em armazenagem ou largura de banda de transmissão, às 
custas de alguma distorção. A coleção de possiveis vetores de reprodução é chamada de livro de 
código do quantizador, e seus membros são denominados palavras de código. 

Um quantizador vetorial com minima distorção de codificação é chamado um quantizador de 
Voronoi ou por vizinho mais próximo, já que as celulas de Voronoi em torno de um conjunto de 
pontos em um espaço de entrada correspondem a uma partição daquele espaço de acordo com a 
regra do vizinho mais próximo baseada na métrica euclidiana (Gersho e Gray, 1992). A Figura 9.12 
mostra um exemplo de um espaço de entrada dividido em quatro células de Voronoi com seus vetores 
de Voronoi associados (1.e., vetores de reconstrução). Cada célula de Voronoi contém aqueles pontos 


Maras AurO-ORGANIZAVEÉS 507 


FIGURA 9.12 Diagrama de Voronoi 
envolvendo quatro células, (Adaptado 
de А.М. Gray, 1984, com permissão 
do IEEE.) 





do espaço de entrada que são os mais próximos do vetor de Voronoi dentre a totalidade destes 
pontos. 

О algoritmo SOM fornece um método aproximativo para calcular os vetores de Voronoi de 
uma maneira não-supervisionada, com a aproximação sendo especificada pelos vetores de pesos 
sinápticos dos neurônios no mapa de caracteristicas, isto é simplesmente a reformulação da pro- 
priedade 1 do algoritmo SOM discutida na Seção 9.6. O cálculo do mapa de caracteristicas pode, 
portanto, ser visto como o primeiro de dois estágios para resolver de forma adaptativa um proble- 
ma de classificação de padrões, como mostrado na Fig. 9,13. O segundo estágio é realizado pela 
quantização vetorial por aprendizagem, que fornece um mecanismo para o ajuste fino de um 
mapa de características. 
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FIGURA 8.13 Diagrama em blocos da classificação adaptativa de 
padrães, usando um mapa de caracteristicas auto-organizável e 
quantzador vetorial por aprendizagem 


A quantização vetorial por aprendizagem" (LVO, learning vector quantization) é uma técni- 
ca de aprendizagem supervisionada que usa a informação sobre as classes para mover ligeiramente 
os vetores de Voronoi, a fim de melhorar a qualidade das regiões de decisão do classificador. Um 
vetor de entrada x é tomado aleatoriamente do espaço de entrada. Se os rótulos de classe do vetor de 
entrada x e de um vetor de Voronoi w concordarem, o vetor de Voronoi w é movido em direção ao 
vetor de entrada x. Se, por outro lado, os rótulos de classe do vetor de entrada x e do vetor de 
Voronoi w discordarem, o vetor de Voronoi w é afastado do vetor de entrada x. 
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Considere que {w i m represente o conjunto de vetores de Voronoi e que ur represente o 
conjunto de vetores de entrada (de observação). Assumimos que há muito mais vetores de entrada 
do que vetores de Voronoi, o que é tipicamente o caso na prática. O algoritmo de quantização 
vetorial por aprendizagem (LVO) opera como segue: 


(i) Suponha que o vetor de Voronoi w seja o mais próximo do vetor de entrada x, Considere que 
6, represente a classe associada com o vetor de Voronoi w, е, represente o rótulo de classe 
do vetor de entrada x. O vetor de Voronoi w é ajustado como segue: 

e Se, = ©, então 


win + 1) =w (п) +0 [x = wm] (9.30) 


onde 0 « a, < 1. 
* Se, рог outro lado, €, 2%, então 


w (n + 1)7 w(n)- a [x — w (n)] (9.31) 


(ii) Os outros vetores de Voronoi nào são modificados. 


É desejável que a constante de aprendizagem @ decresça monotonamente com o número de 
iterações n. Por exemplo, a, pode inicialmente ser 0,1 ou menor, e então decrescer linearmente com 
п. Após vários passos através dos dados de entrada, os vetores de Voronoi tipicamente convergem, e 
o treinamento està completo. Entretanto, podem aparecer dificuldades se o método for aplicado sem 
o cuidado adequado, 


9.8 EXPERIMENTO COMPUTACIONAL: 
CLASSIFICAÇÃO ADAPTATIVA DE PADRÕES 


Em classificação de padrões, O primeiro e mais importante passo é a seleção (extração) de caracte- 
risticas, que normalmente é realizada de uma maneira näo-supervisionada. O objetivo deste primei- 
ro passo ё selecionar um conjunto razoavelmente pequeno de padrões, no qual está concentrado o 
conteúdo de informação essencial dos dados de entrada (a ser classificado). O mapa auto-organizável, 
em virtude da propriedade 4 discutida na Seção 9.5, é bem adequado para a tarefa de seleção de 
características, particularmente se os dados de entrada forem gerados por um processo não-linear. 

O segundo passo na classificação de padrões é a classificação propriamente dita, onde as 
caracteristicas selecionadas dos dados de entrada são atribuídas a classes individuais. Embora um 
mapa auto-organizável seja equipado também para realizar a classificação, o procedimento reco- 
mendado para se obter o melhor desempenho é acompanhá-lo com um esquema de aprendizagem 
supervisionada para o segundo estágio de classificação. A combinação de um mapa auto-organizável 
e um esquema de aprendizagem supervisionada forma a base de uma classificação adaptativa de 
padrões de natureza híbrida, 

Esta abordagem hibrida para classificação de padrões pode tomar diferentes formas, depen- 
dendo de como o esquema de aprendizagem supervisionada for implementado, Um esquema sim- 
ples é usar um quantizador vetorial por aprendizagem, que é descrito na Seção anterior. Dessa 
forma, temos o classificador adaptativo de padrões de dois estágios mostrado na Fig. 9.13. 
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Neste experimento, revisitamos a classificação de padrões bidimensionais superpostos com 
padrões de distribuições gaussianas com rótulos 1 (classe €) e 2 (classe €,), que foi descrita inici- 
almente no Capítulo 4 envolvendo o uso de um perceptron de múltiplas camadas treinado com o 
algoritmo de retropropagação. Os gráficos de espalhamento para os dados usados no experimento 
são mostrados na Fig. 4,13. 

A Figura 9.144 mostra o mapa de caracteristicas bidimensional de 5 x 5 neurônios após o 
treinamento com o algoritmo SOM estar completo, O mapa de características foi rotulado, com 
cada neurônio atribuido a uma classe ou a outra dependendo de como ele responde a dados de teste 
retirados da distribuição de entrada. A Figura 9.14b mostra a fronteira de decisão realizada pelo 
mapa de caracteristicas operando sozinho. 

A Figura 9.14c mostra o mapa de caracteristicas modificado após ser ajustado de uma maneira 
supervisionada usando LVO. A Figura 9.14d mostra a fronteira de decisão produzida pela ação 





(c) (d) 


FIGURA 9.14 (а) Mapa auto-organizável após rotulação. (b) Fronteira 
de decisão construida pelo mapa de caracteristicas da parte a. (c) Mapa 
rotulado após quantização vetorial por aprendizagem. (d) Fronteira de 
decisão construida pelo mapa de caracteristicas da parte c 


combinada dos algoritmos SOM e LVQ. Comparando estas duas figuras com as suas contrapartidas 
mostradas nas Figs. 9.14a e 9.1 4b, vemos, de uma maneira qualitativa, o efeito benéfico obtido pelo 
uso da LVO. 

A Tabela 9.2 apresenta um resumo dos desempenhos de classificação do mapa de caracteristi- 
cas sozinho e do mapa de caracteristicas trabalhando junto com o quantizador vetorial por aprendi- 
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FIGURA 9.15 (a) Quantizador vetorial 
da estágio único com entrada de 
dimensionalidade quatro. (b) Quantizador 
vetorial hierárquica de dois estágios 
usando quantizadores veloriais de duas 
entradas, (De S.P. Luttrell, 18892, direitos 
autorais de British Crown.) 
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FIGURA 9.16 Resultados de codificação/decodificação em dois estágios para entrada de ruido gaussiana 
corelacionado. Coeficiente de comelação p = 0,85 (De S.F Luttreli, 18894, direitos autorais de British 


Crown.) 
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onde p é o coeficiente de AR e os v(n) são variáveis aleatórias paussianas independentes e 
identicamente distribuídas (iid) de média zero e variância unitária. Assim, podemos mostrar que 
x(n) é caracterizado como segue: 





E[x(n)]- 0 (9.33) 
i І 
Elx"(m)]= En (9.34) 
х(п +1)х(л)] _ 
EL x^ (n) E (9.35) 


Assim, p pode ser visto também como о coeficiente de correlação da série temporal {x(n}}. Para 
iniciar a geração da série temporal de acordo com a Eg. (9.32), foi usada uma variável aleatória 
gaussiana de média zero e variância 1/(1 = р?) para x(0), e para o coeficiente de correlação, foi usado 
o valor p = 0,85. 

Para à quantização vetorial foi usado um codificador hierárquico com um espaço de entrada 
de dimensionalidade quatro, como a árvore binária da Fig. 9.15b. Para a série temporal AR [x(n)], 
a simetria de translação implica que são necessárias apenas duas tabelas de consulta distintas. O 
tamanho de cada tabela depende exponencialmente do número de bits de entrada, e depende linear- 
mente do número de bits de saida. Durante o treinamento, é necessário um grande número de bits 
para representar os números de modo a se obter uma computação correta das atualizações descritas 
na Eq. (9.24), por isso, as tabelas de consulta não são usadas durante o treinamento. Uma vez que o 
treinamento esteja completo, entretanto, o número de bits pode ser reduzido ao seu nível normal, e 
as posições da tabela preenchidas correspondentemente. Para o codificador mostrado na Fig. 9.15b, 
as amostras de entrada foram aproximadas usando quatro bits por amostra. Para todos os estágios 
do codificador, foram usados N (= 17) vetores de código, de modo que o número de bits de saída 
para cada tabela de consulta foi também aproximadamente quatro. Com isso, o tamanho do espaço 
de endereçamento das tabelas de consulta, tanto do primeiro como do segundo estágio, é 256 (= 
2), o que significa que a exigência de memória global para representar as tabelas é modesta. 

A Fig. 9.16 mostra os resultados de codificação-decodificação obtidos com x(n) como entra- 
da. A metade inferior da Fig. 9.16a mostra os vetores de código para cada um dos dois estágios 
como uma curva inserida em um espaço de entrada bidimensional; a metade superior da Fig. 9.16a 
apresenta estimativas das matrizes de co-ocorrência correspondentes usando quadrados com forma- 
to 16 x 16. A Figura 9.16b apresenta, como fragmentos da série temporal, o seguinte: 


* Ovetor de código calculado pelo primeiro estágio do codificador 
* O vetor de reconstrução calculado pelo segundo estágio que minimiza a distorção de qua- 
drados minimos, mantendo todas as outras variáveis fixas 


A Figura 9.16c apresenta 512 amostras de ambas as séries temporais originais (curva superior) e a 
sua reconstrução (curva inferior) na saida do último estágio do codificador, a escala horizontal na 
Fig. 9.16c é a metade daquela da Fig. 9.16b. Finalmente, a Fig. 9.16d apresenta uma matriz de 
coocorréncia criada a partir de um par de amostras: uma amostra da série temporal original е a sua 
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teristicas fornecer uma representação fiel da distribuição de entrada. Lin et al. (1997) 

seguem um caminho similar introduzindo duas modificações no algoritmo SOM: 

+ А regra de atualização é modificada para extrair a dependência direta em relação 

ao vetor de entrada x e ao vetor de peso w, do neurônio у em questão. 

* À partição de Voronoi é substituida por uma partição com variação homogênea 

projetada especialmente para distribuições de entrada separáveis. 

Esta segunda modificação permite que o algoritmo SOM realize uma separação cega 

de fonte. (Separação cega de fonte é discutida brevemente no Capitulo | e é discutida 

em maior detalhe no Capítulo 10.) 

As modificações mencionadas se baseiam no algoritmo SOM padrão de uma forma ou de 
outra. Em Linsker (1989b), é seguida uma abordagem totalmente diferente. Especifica- 
mente, é derivada uma regra de aprendizagem global para a formação do mapa topográfico 
maximizando-se a informação mútua entre o sinal de saida e a parte do sinal da entrada 
comompida por ruido aditivo. (A noção de imformação mútua, baseada na teoria da infor- 
mação de Shannon, é discutida no Capítulo 10.) O modelo de Linsker produz uma distri- 
buição de neurómos que coincide exatamente com a distribuição de entrada. O uso de uma 
abordagem baseada na teoria da informação para a formação do mapa topográfico em uma 
maneira auto-organizada é também seguido em Van Hulle (1996, 1997). 
A relação entre o algoritmo SOM e as curvas principais é discutida em Ritter et al. (1992) 
e Cherkassky e Mulier (1995). O algoritmo para encontrar uma curva principal consiste de 
dois passos (Hastie e Stuetzl, 1989). 
1. Projeção. Para cada ponto de dado, encontre a sua projeção mais próxima ou о ponto 
mais próximo sobre a curva. 
2 Valor esperado condicional, Aplique uma suavização dos pontos de espalhamento 
aos valores projetados ao longo da extensão da curva. O procedimento recomendável 

É iniciar a suavização com uma grande extensão e então decrescê-la gradualmente. 

Estes dois passos são similares à quantização vetorial e ao recozimento da vizinhança 
realizadas no algoritmo SOM, 
A idéia da quantização vetorial por aprendizagem foi proposta por Kohonen em 1986; trés 
versões deste algoritmo são descritas em Kohonen (1990b; 1997a). A versão do algoritmo 
discutido na Seção 9.7 é a primeira versão de quantização vetorial por aprendizagem, 
referida como МОТ por Kohonen. 

O algoritmo de quantização vetorial por aprendizagem é um algoritmo de aproxima- 
ção estocástica. Baras e LaVigna (1990) discutem as propriedades de convergência do 
algoritmo usando a abordagem da equação diferencial ordinária (EDO) que é desenta no 
Capítulo 5. 


PROBLEMAS 


Algoritmo SOM 


9,1 


9.2 


9.3 


A função go) representa uma função não-linear da resposta y, que é usada no algoritmo 
SOM como descrito na Eq. (9.9). Discuta a implicação do que poderia acontecer se o 
termo constante na série de Taylor de giv) for diferente de zero. 

Assuma que ie} é uma função suave do ruído + no modelo da Fig. 9.6. Usando uma 
expansão de Taylor da medida de distorção da Eq. (9.19), determine o termo de curvatura 
que surge do modelo de ruido тю), 

Algumas vezes diz-se que o algoritmo SOM preserva as relações topológicas que existem 
no espaço de entrada. A rigor, esta propriedade pode ser garantida apenas para um espaço 
de entrada de igual ou menor dimensionalidade que aquele da grade neural. Discuta à 
validade desta afirmação. 
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cAPÍTULO 10 


Modelos Teóricos da Informação 


10.1 INTRODUÇÃO 


Em um artigo clássico publicado em 1948, Claude Shannon estabeleceu os fundamentos da teoria 
da informação. O trabalho original de Shannon sobre a teoria da informação”, e seu refinamento por 
outros autores, foi uma resposta direta às necessidades de engenheiros eletricistas para projetar 
sistemas de comunicação que sejam tanto eficientes como confiaveis. Apesar de suas origens práti- 
cas, a teoria da informação como nós a conhecemos hoje é uma teoria matemática profunda preocu- 
pada com a essência do processo de comunicação. À teoria fornece uma estrutura para o estudo das 
questões fundamentais como a eficiência da representação da informação e as limitações envolvi- 
das na transmissão confiável da informação através de um canal de comunicação. Além disso, a 
teoria engloba uma profusão de teoremas poderosos para calcular limites ideais de representação 
ótima e de transmissão de sinais portadores de informação. Estes limites são importantes porque 
fornecem parâmetros de referência para o projeto aperfeiçoado de sistemas de processamento de 
informação, 

O principal objetivo deste capitulo é discutir modelos teóricos da informação que levem à 
auto-organização de uma forma fundamentada em princípios. Neste contexto, um modelo que me- 
rece menção especial é o principio da máxima informação mútua” formulado por Linsker (1988). 
Este principio afirma que as conexóes sinápticas de uma rede neural de mültiplas camadas se desen- 
volvem de forma a maximizar a quantidade de informação que é preservada quando ocorre trans- 
formação de sinais em cada estágio de processamento da rede, sujeita a certas restrições. A idéia 
de que a teoria da informação pode oferecer uma explicação para o processamento perceptivo não é 
nova.’ Podemos mencionar, por exemplo, um antigo artigo de Attneave (1954), no qual é proposta a 
seguinte função da teórica da informação para o sistema perceptivo: 


Uma função principal da maquinaria perceptiva é retirar alguma redundância da estimulação, para 
descrever ou codificar a informação em uma forma mais económica que aquela com a qual ela atinge 
os receptores. 
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A principal idéia por trás do artigo de Attneave é o reconhecimento de que a codificação de dados de 
uma cena com o propósito de redução de redundância está relacionada à identificação de caracteris- 
ticas específicas na cena. Esta importante constatação está relacionada a uma visão do cérebro 
descrita em Craik (1943), no qual é construído um modelo do mundo externo que incorpora as 
regularidades e restrições do mundo. 


Organização do Capitulo 


O conteúdo principal do capítulo está organizado em duas partes. À primeira parte, consistindo das 
Seções 10.2 a 10.5, fornece uma revisão dos fundamentos da teoria da informação, Na Seção 10.2, 
discutimos o conceito de entropia como uma medida quantitativa de informação, que leva natural- 
mente ao principio da máxima entropia discutido na Seção 10.3. A seguir, na Seção 10.4, discuti- 
mos o concerto de informação mútua e suas propriedades, seguido por uma discussão da divergén- 
cia de Kullback-Leibler na Seção 10.5. 

A segunda parte do capítulo, consistindo das Seções 10.6 a 10,14, trata de modelos teóricos da 
informação para sistemas auto-organizäveis. A Seção 10,6 ressalta a informação mútua como uma 
função objetivo a ser otimizada. O principio da máxima informação mútua é discutido na Seção 
10.7, que é seguida por uma discussão da relação entre este princípio e o da redução de redundância 
na Seção 10,8. As Seções 10.9 e 10.10 tratam de duas variantes do principio da máxima informação 
mútua que são adequadas para diferentes aplicações em processamento de imagens. As Seções 
10.11 a 10.14 apresentam trés métodos diferentes para resolver o problema da separação cega de 
fontes. 

O capítulo conclui com algumas considerações finais na Seção 10.15. 


10.2 ENTROPIA 


Seguindo a terminologia normalmente utilizada na teoria das probabilidades, usamos uma letra 
maiúscula para representar uma variável aleatória, e a letra minúscula correspondente para repre- 
sentar o valor da variável aleatória. 

Considere então uma variável aleatória X, em que cada realização (apresentação) sua pode ser 
vista como uma mensagem. À rigor, se a variável aleatória X for continua em seu intervalo de 
amplitude, então ela carrega uma quantidade infinita de informação. Entretanto, do embasamento 
fistco e biológico reconhecemos que não faz sentido pensarmos em termos de medidas de amplitu- 
de com precisão infinita, o que sugere que o valor de X pode ser uniformemente quantizado em um 
número finito de niveis discretos. Conseqüentemente, podemos ver X como uma variável aleatória 
discreta, modelada como segue: 


X= {х | £20, E 1,., E K) (10.1) 


onde x, é um número discreto e (2А + 1) é o número total de níveis discretos. Assume-se que a 
separação ӧх entre os níveis discretos seja suficientemente pequena para o modelo da Eq. (10.1) 
fornecer uma representação adequada para a variável de interesse. Podemos, é claro, passar para o 
limite continuo fazendo бх se aproximar de zero е А tender ao infinito, e neste caso temos uma 
variável aleatória continua e (como veremos mais adiante nesta seção) os somatórios se tornam 
integrais. 
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Para completar o modelo, considere que o evento X = x, ocorra com probabilidade 


p,7P(X-x) (10.2) 


com a exigéncia que 


E 
OspSle А =1 (10.3) 
Suponha que o evento X = x, ocorra com probabilidade р, = 1, o que por sua vez requer que p, = 0 
para todo i x k. Em tal situação não há “surpresa” e, portanto, nenhuma “informação” é transmitida 
pela ocorrência do evento X = x,, pois sabemos como a mensagem deve ser. Se, por outro lado, os 
vários níveis discretos ocorrerem com diferentes probabilidades e, em particular, a probabilidade p, 
for baixa, então há mais “surpresa” e portanto “informação” quando X assumir o valor x, em vez de 
um outro valor x, com maior probabilidade р, г # k. Assim, as palavras “incerteza”, “surpresa” e 
“informação” estão todas relacionadas. Antes da ocorrência do evento X = x,, há uma quantidade de 
incerteza. Quando o evento X = x, ocorre, existe uma quantidade de surpresa. Após a ocorrência de 
X = x, há um aumento na quantidade de informação. Estas três quantidades são obviamente a 
mesma. Além disso, a quantidade de informação estã relacionada com o inverso da probabilidade 
de ocorrência. 
Definimos a quantidade de informação ganha após observar o evento X= x, com probabilida- 
de p, como a função logaritmica 


(e) e tod 1.) tgp (10.4) 
Р, 


onde a base do logaritmo é arbitrária. Quando o logaritmo natural é usado, as unidades de informa- 
ção são nats, e quando o logaritmo de base 2 é usado as unidades são hits. Em qualquer caso, a 
definição de informação dada na Eq. (10.4) exibe as seguintes propriedades: 


1. ix) = 0 para p, = 1 (10.5) 
Obviamente, se estivermos absolutamente certos do resultado de um evento, nenhuma informa- 
ção é ganha pela sua ocorrência. 


2, f(x) 2 0paraü Sp, £1 (10.6) 


Isto é, a ocorrência de um evento X = x, fornece alguma informação ou nenhuma informação, 
mas nunca resulta em uma perda de informação. 


3. Kx) > Kx) para p, <p, (10.7) 
Isto é, quanto menos provável for um evento, mais informação é ganha através da sua ocor- 


réncia. 


A quantidade de informação J(x,) é uma variável aleatória discreta com probabilidade р,. O 
valor médio de Xx) sobre o intervalo completo de 2А + 1 valores discretos é dado por 


HA) = E[1(x,)] 


= Y nix) (10.8) 
#=-К 
K 
=- Y p,logp, 
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A quantidade АХА) é chamada а entropia de uma variável aleatória A que pode assumir um conjunto 
finito de valores discretos; é chamada assim em reconhecimento à analogia entre a definição dada 
na Eq. (10.8) e aquela da entropia na termodinâmica estatistica”. A entropia H(X) é uma medida da 
quantidade media de informação transmitida por mensagem. Note, entretanto, que о X em HA) 
não é um argumento de uma função, mas sim um rótulo para uma variável aleatória. Note também 
que na definição da Eq. (10.8) fizemos Olog ser 0. 

A entropia A(X) é limitada como segue: 


0 € АХ) € log (2K + 1) (10.9) 


onde (2K + 1) é o número total de niveis discretos, Além disso, podemos fazer as seguintes afirma- 
ÇÕES: 


1. H(A) = 0 sc e somente se a probabilidade p, = 1 para algum k, с as probabilidades restantes no 
conjunto são todas zero; este limite inferior da entropia corresponde a nenhuma incerteza. 

2, H(X) = log,(2K + 1), see somente se p, = 1(2K + 1) para todo k (i.e., todos os niveis discretos 
são equiprováveis), este limite superior da entropia corresponde à incerteza máxima. 


A prova da propriedade 2 resulta do seguinte lema (Gray, 1990): 


Dadas duas distribuições de probabilidade quaisquer {p} € (q,) para uma variável aleatória discreta X, 
então 


УА log 2 Jz0 (10.10) 
i q 


1 


que é satisfeita com а igualdade se e somente se q, = p, рага todo E, 


A quantidade usada neste lema é de tal importância fundamental que fazemos uma pausa para 
dispö-la em uma forma adequada para uso no estudo de sistemas estocásticos. Considere que p (x) 
e q (x) representem as probabilidades que a variável aleatória X esteja no estado x sob duas condi- 
ções de operação diferentes. A entropia relativa ou divergência (distância) de Kullback-Leibler 
entre as duas funções de massa da probabilidade p (x) e q (x) é definida por (Kullback, 1968; Gray, 
1990: Cover e Thomas, 1991) 


) 
Da, Уро 20) (10.11) 


onde o somatório é sobre todos os estados possíveis do sistema (i.e., о alfabeto Ж da variável alea- 


tória discreta X). A função de massa da probabilidade q (x) desempenha o papel de uma medida de 
referência. 


А Entropia Diferencial de Variáveis Aleatórias Contínuas 


A discussão de conceitos teóricos da informação até agora envolveu conjuntos de variáveis alcató- 


rias que são discretas em seus valores de amplitude. Agora estendemos alguns desses conceitos para 
variáveis aleatórias continuas. 
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Considere uma variável aleatória continua X com a função de densidade de probabilidade 
f Áx). Por analogia com a entropia de uma variável aleatória discreta, introduzimos a seguinte defi- 
nição: 
MA) = -f Јов f, (ах 
=—Ellog ў, (x)dx | 


(10.12) 


Nos referimos а h(X) como a entropia diferencial de X para distingui-la da entropia ordinária ou 
entropia absoluta. Fazemos isso por reconhecer que, embora ALYY) seja uma quantidade matemática 
útil de se conhecer, ela não é de forma alguma uma medida da aleatoriedade de X. 

Justificamos o uso da Ea. (10.12) como segue. Começamos vendo a vanável aleatória conti- 
nua X como a forma limite de uma variável aleatória discreta que assume o valor x, = köx, onde É = 
0, £l, +2,..., ебх se aproxima de zero. Por definição, a variável aleatória continua X assume um 
valor no intervalo [x,, x, + бх] com probabilidade / (x Jóx. Assim, permitindo que Óx se aproxime de 
zero, a entropia ordinária da variável aleatória continua A pode ser escrita no limite como 


H(X)=-lim Y f, år log f, (x 8x) 


--jim| El f log logi È Ja 


(10.13) 
- | Jeblog dx - lim logā | Fede 


= hf My - lim log år 


onde na última linha fizemos uso da Eq. (10.12) e do fato de que a área total sob a curva da função 
de densidade de probabilidade / (x) é unitária. No limite quando år se aproxima de zero, — logàx se 
aproxima do infinito. Isto significa que a entropia de uma variável aleatória continua é infinitamente 
grande. Intuitivamente, esperariamos que isto fosse verdade porque uma variável aleatória continua 
pode assumir um valor qualquer no intervalo (— се, ос) e a incerteza associada com a variável tende 
ao infinito. Evitamos o problema associado com o termo logóx adotando A(X) como uma entropia 
diferencial, com o termo — logår servindo como referência. Além disso, como a informação proces- 
sada pelo sistema estocástico como uma entidade de interesse é realmente a diferença entre dois 
termos de entropia que têm uma referência comum, a informação será a mesma que a diferença 
entre os termos de entropia diferencial correspondentes. Com isso, justificamos perfeitamente o uso 
do termo h(.X), definido na Eq. (10.13), como a entropia diferencial da variável aleatória continua X. 

Quando temos um vetor aleatório continuo X consistindo de n variáveis aleatórias X procos 
A. definimos a entropia diferencial de X como a integral (n vezes) multipla 


h(X)-2 -| Д.(х)1ор f (x)dx 
= Ellog /,(x)] 


(10.14) 
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eo vetor aleatório m-por-1 X é definido em termos де U por 
X — AU 


onde A é uma matriz náo-diagonal. Considere que E (X,) represente a função de densidade de pro- 
babilidade marginal de cada X, que é derivada de f(x). Então, a divergência de Kullback-Leibler 
entre f(x) ef, (x) admite a seguinte decomposição por Pitágoras: 


Din “Bip * кк (10.45) 


Referimo-nos a esta clássica relação como uma decomposição por Pitágoras porque ela tem uma 
interpretação geométrica sobre a informação (Amari, 1985). Na nota 8 é apresentada uma prova 
desta decomposição, 


10.6 INFORMAÇÃO MUTUA COMO UMA FUNÇÃO 
OBJETIVO A SER OTIMIZADA 


Agora que desenvolvemos uma compreensão adequada sobre a teoria da informação de Shannon, 
estamos prontos para discutir o seu papel no estudo de sistemas auto-organizáveis. 

Para prosseguirmos com a discussão, considere um sistema neural com multiplas entradas e 
saídas. O objetivo principal aqui é que o sistema seja auto-organizável, projetado para uma tarefa 
especifica (p.ex. modelagem, extração de caracteristicas estatisticamente salientes ou separação de 
sinais). Este objetivo pode ser satisfeito escolhendo-se a informação mútua entre certas variáveis do 
sistema como a função objetivo a ser otimizada. Esta escolha particular é justificável pelas seguin- 
tes considerações: 


* A informação mútua tem algumas propriedades únicas como discutido na Seção 10.4. 
+ Ela pode ser determinada sem a necessidade de um professor, de modo que são naturalmen- 
te dadas condições para aulo-organização, 


Com isso, o problema recai em ajustar os parámetros livres (Le., pesos sinápticos) do sistema de 
modo a otimizar a informação mútua. 

Dependendo da aplicação de interesse, podemos identificar quatro diferentes cenários como 
ilustrado na Fig. 10.2, que podem surgir na prática, Estes cenários são descritos como segue: 


* No cenário l representado na Fig. 10.2a, o vetor de entrada X é composto pelos elementos 
X, Au Kos e O vetor de saída Y é composto pelos elementos Ү,, Y,,… Y. O objetivo é 
maximizar a infor mação transmitida para a saida Y do sistema sobre d inima X do siste- 
"mi. 

e Nocenário 2 representado na Fig. 10.2b, um par de vetores de entrada X e X, é derivado de 
regiões adjacentes, mas não-superpostas da imagem. As entradas X e X, produzem saídas 
escalares Y. e Y,, respectivamente. O objetivo é maximizar a informação transmitida para Y, 
sobre Y, e vice-versa. 
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AY) = AN 


= 50 + Inc...) 


1 А a 
-—]1t-280] 4% qui 
jito Ši] 


(10,53) 


Assim, usando as Eqs. (10.49) e (10.53) em (10.47) e então simplificando os termos, obtemos (Linsker, 
198 8а) 


| a 
KY; X) = log == 
2 "zx (10,54) 


Com a restrição que a variância do ruido с> seja mantida constante, a informação mútua ДҮ; X) é agora 
maximizada pela maximização da relação d; / $^ w), onde a; é uma função de w, 


E 
O que podemos deduzir dos Exemplos 10.4 e 10.5? Primetro, vemos do material apresentado 
nestes dois exemplos que o resultado de aplicarmos o principio Infomax depende do problema. A 
equivalência entre maximizar a informação mútua /(Y; X) e a variância de saída que se aplica ao 
modelo da Fig. 10.3, para uma variância de ruido predeterminada ci, não se aplica ao modelo da 
Fig. 10.4. Apenas quando impomos a restrição + wu? = 1 ao modelo da Fig. 10.4 que ambos os 
modelos se comportam de maneira similar. 

Em geral, a determinação da informação mútua /(Y;X) entre o vetor de entrada X e o vetor de 
saida Y é uma tarefa dificil. Nos Exemplos 10.4 е 10.5, tomamos a análise matemática tratável 
assumindo que as distribuições de ruído em um sistema com uma ou mais fontes de ruído são 
gaussianas multivariadas. Esta suposição precisa ser justificada. 

Adotando-se um modelo de ruído gaussiano, estamos essencialmente invocando uma infor- 
mação mútua “substituta” calculada sob a premissa de que o vetor de saida Y de um neurônio tem 
uma distribuição gaussiana multivariada com o mesmo vetor média e a mesma matriz de covariância 
que a distribuição real. Em Linsker (1993), a divergência de Kullback-Leibler é usada para fornecer 
uma justificativa fundamentada em princípios para o uso de uma tal informação mútua substituta, 
sob a condição de que a rede tenha armazenado informação sobre o vetor média e a matriz de 
covariância do vetor de saída Y, mas não sobre estatísticas de ordem mais alta. 

Finalmente, a análise apresentada nos Exemplos 10.4 e 10.5 foi realizada no contexto de um 
único neurônio. Isto foi feito de propósito com uma idéia especifica em mente: para o princípio 
Infomax ser matematicamente tratável, a otimização deve ser realizada em um nivel neuronal local. 
Este tipo de otimização é consistente com a essência da auto-organização. 


Exemplo 10.6 


Nos Exemplos 10,4 e 10,5, consideramos neurônios ruidosos, Neste exemplo, consideramos uma rede sem 
ruido que transforma um vetor aleatório X de distribuição arbitrária em um novo vetor aleatório Y de distribui- 
ção diferente. Reconhecendo que /(X; Y) = f(Y; X) e estendendo a Eq. (10.28) à situação descrita aqui, pode- 
mos expressar а informação mútua entre o vetor de entrada X e o vetor de saida Y como segue: 
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do Infomax. É interessante notarmos que o compromisso redundância/diversidade é em parte aná- 
logo (apesar de diferente) ao compromisso viés/variância discutido no Capítulo 2. 


Modelagem de um Sistema Perceptivo 


Desde os primórdios da teoria da informação, tem sido sugerido que a redundância de mensagens 
sensoriais (estimulos) ё importante para o entendimento da percepção (Attneave, 1954; Barlow, 
1959). De fato, a redundância de mensagens sensoriais fornece o conhecimento que permite ao 
cérebro construir seus “mapas cognitivos” ou “modelos de trabalho” do seu meio ambiente (Barlow, 
1989). As regularidades nas mensagens sensoriais devem ser codificadas de alguma forma pelo 
cérebro para que ele saiba o que acontece normalmente. Entretanto, a redução da redundância é a 
forma mais especifica da hipótese de Barlow. Esta hipótese diz que o objetivo do processamento 
primário é transformar a entrada sensorial altamente redundante em um código fatorial mais efici- 
ente. Em outras palavras, as saidas neuronais se tomam estatisticamente independentes quando 
condicionadas na entrada. 

Inspirados pela hipótese de Barlow, Atick e Redlich (1990) postularam o principio da minima 
redundüncia como base para um modelo teórico da informação do sistema perceptivo mostrado na 
Fig. 10.5. О modelo consiste de trés componentes: o canal de entrada, o sistema de codificação e o 
canal de saida. À saída do canal de entrada é descrita por 


ч= шш rom шт mm. mm. mm um um 


FIGURA 10,5 Modelo de um sistema 
perceptiva. O velor sinal s e os vetores 





py! гу! 


[x nca. i aor se de ruido e, € v, são valores dos vetores 
Canal de entrada Canal de salda aleatórios S, M, e N,, respectivamente 
(nervo ético) 


onde $ é um sinal ideal recebido pelo canal de entrada e assume-se que N, seja a fonte de todo o 
ruido na entrada. O sinal X é a seguir transformado (codificado) por um operador matricial linear A. 
Ele é então transmitido através do nervo ótico, ou canal de saida, produzindo a saida Y, como 
mostrado por 


Y=AX+N, 


onde N. representa o ruido intrínseco após a codificação. Na abordagem seguida por Atick e Redlich, 
observa-se que sinais de luz que incidem na retina contém informação sensorial útil em uma forma 
altamente redundante. Além disso, levanta-se a hipótese de que o propósito do processamento do 
sinal da retina é reduzir ou eliminar os bits redundantes de dados devido tanto a correlações como a 
ruido, antes de enviar o sinal através do nervo óptico. Para quantificar esta noção, é definida uma 
medido de redundância por 
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av) (10.56) 


onde ДҮ; 8) é a informação mútua entre Y e S, e C(Y) ёа capacidade do canal do nervo ótico (canal 
de saida). À Equação (10.56) é justificada com base no argumento de que a informação na qual o 
cérebro está interessado é o sinal ideal 5, enquanto que o canal fisico através do qual esta informa- 
ção precisa passar é na realidade o nervo óptico. Assume-se que não haja redução de dimensionalidade 
no mapeamento de entrada-saida realizado pelo sistema perceptivo, o que significa que C(Y) > ДҮ; 
5). O objetivo é encontrar um mapeamento de entrada-saida (Le., a matriz A) que minimiza а medi- 
da de redundância À, sujeita à restrição de não haver perda de informação, como mostrado por 


КҮ; X)=HX;X]-e 


onde e é um parâmetro positivo pequeno, À capacidade do canal C(Y) é definida como a taxa 
máxima de fluxo de mtormação possivel através do nervo óptico, estendendo-se sobre todas as 
distribuições de probabilidade das entradas aplicadas a ele e mantendo fixa a potência média de 
entrada. 

Quando o vetor sinal 5 e o vetor de saida Y têm a mesma dimensionalidade e há ruído no 
sistema, o princípio da minima redundância € o principio Infomax são matematicamente equivalen- 
tes, desde que uma restrição similar seja imposta à capacidade computacional dos neurônios de 
saida em ambos os casos. Para sermos específicos, suponha que a capacidade do canal seja medida 
em termos do intervalo dinâmico da saída de cada neurônio do modelo da Fig. 10.5. Então, de 
acordo com o principio da minima redundância, a quantidade a ser minimizada é 


L- I(Y; $) 
CY) 





para uma dada perda de informação permissivel, e portanto para um dado (Y; S). Assim a quantida- 
de a ser minimizada é essencialmente 


F(Y; S)= COW) AMY, 8) (10.57) 


Por outro lado, de acordo com o principio Infomax a quantidade a ser maximizada no modelo da 
Fig. 10.5 é 


FAN: S= NY, 5) + AC(Y) (10.58) 


Embora as funções Р (Y; 5) e F(Y; S) sejam diferentes, suas otimizações produzem resultados 
idénticos: ambas sào formulacóes do método dos multiplicadores de Lagrange, com os papéis de 
KY; Sje C(Y) simplesmente trocados. 

О ponto importante a notar desta discussão é que, apesar da diferença nas formulações, estes 
dois principios teóricos da informação levam a resultados similares. Em resumo, a maximização da 
informação mútua entre a saída e a entrada de um sistema neural leva de fato à redução da redun- 
dància.* 
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10.9 CARACTERÍSTICAS ESPACIALMENTE COERENTES 


O princípio Infomax, como postulado na Seção 10.6, aplica-se situação na qual a informação 
mútua ДҮ; X) entre o vetor de saida Y de um sistema neural e o vetor de entrada X é a função 
objetivo a ser maximizada, como ilustrado na Fig. [0.2a. Com modificações apropriadas na termi- 
nologia, podemos estender este princípio para lidar com o processamento não-supervisionado da 
imagem de uma cena natural (Becker e Hinton, 1992). Um elemento (pixel) não-processado de uma 
imagem assim contém uma riqueza de informações sobre a cena de interesse, embora em forma 
complexa. Em particular, a intensidade de cada elemento é afetada por parámetros intrinsecos tais 
como profundidade, reflexibilidade e orientação da superficie, bem como pelo ruído de fundo e 









Região Y 
g Maximize à 
informação mútua 
Região AY Fad 
h Y, 


FIGURA 10.8 Processamento de duas regiões vizinhas de uma imagem de 
acordo com a primeira variante do Infomax 


iluminação. O objetivo é projetar um sistema auto-organizável que seja capaz de aprender a codifi- 
car esta informação complexa em uma forma mais simples. Para sermos mais especificos, o objetivo 
é extrair caracteristicas de ordem mais alta que exibam coerência simples através do espaço de tal 
forma que a representação da informação em uma região espacialmente localizada da imagem tome 
mais fácil produzir a representação da informação em regiões vizinhas; uma região se refere a uma 
coleção de elementos na imagem. À situação descrita aqui é relativa ao cenário ilustrado na Fig. 
10.2b. 

Podemos assim formular a primeira variante do principio Infomax' como segue (Becker, 
1996; Becker e Hinton, 1992): 


A transformação de um par de vetores X e X, (representando regiões adjacentes, não superpostas de 
uma imagem por um sistema neural) deve ser escolhida de modo que a saida escalar Y do sistema 
devido à entrada X_ maximize a informação sobre a segunda saída escalar Р, devido a X.. A função 
objetivo a ser maximizada é a informação mútua AY ; Y.) entre as saídas Y e Y. 


Referimo-nos a este principio como uma variante do principio Infómax no sentido de que não é 
equivalente à Infomax ou derivado dele, mas certamente funciona de uma maneira similar. 

Para sermos específicos, considere a Fig. 10.6 que mostra duas redes (módulos) neurais a e 5 
recebendo as entradas X e X, de regiões adjacentes não-superpostas de uma imagem. Os escalares 
F e Y, representam as saidas destes dois módulos causadas pelos respectivos vetores de entrada X. 
e X,. Considere que 5 represente uma componente de sinal comum a ambos Y c Yp que é represen- 
tativa da coerência espacial através das duas regiões pertinentes da imagem original. 
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Podemos expressar Y e Y, como versões ruidosas do sinal comum $, como mostrado por 


Y -$*N, (10.59) 


Y=S+N, (10.60) 


N eN, são componentes de ruido aditivo, assumidas como sendo variáveis aleatórias de distribui- 
ção gaussiana de média zero, estatisticamente independentes. Assume-se que a componente de 
sinal 5 é também gaussiana com uma distribuição própria. De acordo com as Egs. (10.59) e (10.60), 
os dois módulos a e & da Fig. 10.6 tornam as suposições consistentes entre si. 

Utilizando a última linha da Eq. (10.30), a informação mútua entre Y c F é definida por 


KY :Y)-hY))-h(Y)—h(Y. Y.) (10.61) 


De acordo com a fórmula da Eq. (10.22) para a entropia diferencial de uma variável aleatória 
gaussiana, a entropia diferencial h(Y.) de Y é dada por 


… 1 
АҮ) = al! + log(2m6:)] (10.62) 
onde a: é a variância de Y . Similarmente, a entropia diferencial de Y, é dada por 
pal 3 
h(Y,)= al! +log(2x0;)] (10.63) 


onde q, é a variância de Y,. Como para o caso da entropia diferencial conjunta ACF „У, ), utilizamos 
a fórmula da Eq. (10.24) para escrever 


АУ, Y.) 9 1+ log(2m7) + ; logldet(E) (10.64) 
A matriz E, 2-por-2, é a matriz de covariáncia de Y, e У; é definida por 


E =: | с? 0,0, 
PeT, O; 


„ат 


(10.65) 


onde р, ёо coeficiente de correlação de Y, e Y; que ё 


E, - Ef kx. -411,])] (10.66) 


oU, 


e 
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Com isso, o determinante de E é 
det(E) = 676; (1 - p.) (10.67) 


e assim podemos rescrever a Eq. (10.64) como 
MY, X) e Le log(27) + 2 log[oioi(i -pÀ)] (10.68) 


Substituindo as Eqs. (10.62), (10.63) e (10.68) em (10.61) e então simplificando os termos, obte- 


mas 


IQ; = dog —på,) (10.69) 


Da Eq. (10.69) deduzimos imediatamente que maximizar a informação mútua A(Y ¿Y ) é equivalente 
a maximizar o coeficiente de correlação р, o que é razoável intuitivamente. Note que, por defini- 
ção, Pa S 1. 

Maximizar a informação mútua ДҮ :Y) pode ser visto como a generalização não-linear da 
correlação canônica da estatística (Becker e Hinton, 1992). Dados dois vetores (estimulos) de entra- 
da X, e X, (não necessariamente da mesma dimensionalidade) e dois vetores de peso corresponden- 
tes, w CW, O objetivo da analise da correlação canonica é encontrar as combinações linea- 


res Y, = wIX, eF, = w7X, que têm máxima correlação entre elas (Anderson, 1984). Maximizar 
КҮ ; Y.) é uma generalização não-linear da correlação canônica em virtude da não-lincaridade in- 
corporada no projeto dos módulos neurais da Fig, 10.6. 

Em Becker e Hinton (1992), é demonstrado que ao se maximizar a informação mútua A(Y ; Y.) 
é possivel extrair a disparidade relativa à profundidade de estereogramas de pontos aleatórios. Este 
é um problema dificil de extração de caracteristicas que nào pode ser resolvido por uma rede neural 
linear ou de uma camada. 


10.10 CARACTERÍSTICAS ESPACIALMENTE INCOERENTES 


O processamento não-supervisionado de uma imagem considerado na seção anterior trata da extração 
de características espacialmente coerentes de uma imagem. Consideramos agora a situação oposta 
à descrita ali. Para sermos especificos, considere a Fig. 10.2c, onde o objetivo é acentuar as diferen- 
cas espaciais entre um par de regiões correspondentes derivadas de duas imagens separadas. En- 
quanto que a informação mútua entre as saidas dos módulos é maximizada na Fig. 10.2b, fazemos 
exatamente o oposto na Fig. 10.2c. 

Podemos assim formular a segunda variante do principio Infomax como segue (Ukrainec e 
Haykin, 1992, 1996): 


A transformação de um par de vetores de entrada X e X,, representando dados derivados de regiões 
correspondentes em um par de imagens separadas, por um sistema neural deve ser escolhida de modo 
que a saida escalar Y do sistema devido à entrada X minimize a informação sobre a segunda saida 
escalar Y, devido a X,. A função objetivo a ser minimizada é a informação mútua ДУ ; Y, ) entre as 
saídas Y. e Y, 
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Aqui, novamente nos referimos a este principio como uma variante do principio Infomax sendo que 
ele não é equivalente ao Infomax ou derivado dele, mas certamente funciona inspirado nele." 

A segunda variante do principio Infomax encontra aplicação em polarimetria de radar, por 
exemplo, onde um sistema de vigilância por radar produz um par (ou mais) de imagens de um 
ambiente de interesse transmitindo em uma polarização e recebendo o espalhamento retornado do 
ambiente na mesma polarização ou em uma polarização diferente. À polarização pode ser vertical 
ou horizontal. Podemos, por exemplo, ter um par de imagens de radar, uma imagem representando 
a polarização paralela (p. ex., horizontal-horizontal), e a outra imagem representando a polarização 
cruzada (horizontal na transmissão e vertical na recepção). Uma aplicação assim é descrita em 
Ukrainec e Haykin (1992, 1996), que se refere ao realce de um alvo por polarização em um sistema 
de radar de polarização dual, A amostra da cena do radar usada no estudo é descrita a seguir. Um 
radar incoerente transmite de uma maneira polarizada horizontalmente e recebe retornos de radar 
em ambos os canais, horizontal e vertical. O alvo de interesse é um refletor de desvio de polariza- 
ção cooperativo projetado para girar a polarização incidente em 90 graus. Na operação normal de 
um sistema de radar, a detecção de um alvo como este se torna dificil devido às imperfeições no 
sistema bem como por reflexões de alvos polarimétricos indesejáveis no solo (ie, “desordem” de 
radar). Percebemos que é necessário um mapeamento não-linear para levar em conta a distribuição 
não-gaussiana comum dos retornos de radar. O problema de realce do alvo é formulado como um 
problema variacional envolvendo a minimização de um funcional de custo quadrático com restri- 
ções. O resultado liquido é uma imagem com polarização cruzada processada que exibe uma me- 
lhora significativa na visibilidade do alvo, muito mais pronunciada que aquela alcangável através do 
uso de uma técnica linear como a análise de componentes principais. O modelo usado por Ukrainec 
e Havkin assume estatísticas gaussianas para os dados transformados, já que uma estimativa inde- 
pendente de modelo da função de densidade de probabilidade é uma tarefa computacionalmente 
desafiadora. A informação mútua entre duas variáveis gaussianas Y e Y, é definida pela Eq. (10.61). 
Para aprender os pesos sinápticos dos dois módulos, é seguida uma abordagem variacional. O objetivo 
é suprimir а desordem de radar que é comum às imagens polarizadas horizontal e verticalmente. 
Para satisfazer esta exigência, a informação mútua ÑY ;Y,) é minimizada, sujeita a uma restrição 
imposta aos pesos sinápticos como mostrado por 


Р = (u[W7W] - 1P (10.70) 


onde W é a matriz de peso global da rede, e tr[-] é o traço da matriz dentro dos colchetes. Um ponto 
estacionário é alcançado quando temos 


Ж NY) + АУР =0 (10.71) 


onde À é o multiplicador de Lagrange. Foi usada uma rotina de otimização quase-Newton рага 
encontrar o minimo; os métodos quase-Newton são discutidos no Capitulo 4, 

A Figura 10.7 mostra a arquitetura da rede neural usada em Ukrainec e Haykin (1992, 1996). 
Uma rede de função de base radial (RBF) foi escolhida para cada um dos dois módulos porque tem 
a vantagem de fornecer um conjunto de funções de base radial (i.e., uma camada oculta não- 
adaptativa). Os dados de entrada são expandidos sobre as funções de base e então combinados 
usando camadas de pesos lineares; as linhas tracejadas mostradas na Fig. 10.7 representam as cone- 
xóes de acoplamento cruzado entre os dois módulos. Os centros das funções gaussianas foram 
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FIGURA 10.7 Diagrama em blocos de um processador neural, cujo abjetivo 
à suprimir desordem de fundo usando um par de entradas de radar não-cos- 
rentes polarimétricas, a supressão de desordem à alcangada minimizando à 

informação mútua entre as saldas dos dois módulos 


escolhidos em intervalos uniformemente espaçados para cobrir todo o dominio de entrada, e suas 
larguras foram escolhidas usando uma heurística. A Figura 10.8a mostra as imagens brutas de radar 
horizontalmente polarizada e verticalmente polarizada (ambas no receptor) de uma configuração 
semelhante a um parque nas margens do Lago Ontário. A coordenada do alcance está ao longo do 
eixo horizontal de cada imagem, aumentando da esquerda para a direita; a coordenada do azimute 
está sobre o eixo vertical, aumentando para baixo na imagem. A Figura 10.8b mostra a imagem 
combinada obtida minimizando a informação mútua entre as imagens de radar polarizadas horizon- 
talmente e verticalmente, como deserto acima. À mancha brilhante claramente visível nesta ima- 
gem corresponde ao retorno de radar de um refletor de desvio de polarização cooperativo colocado 
ao longo da margem do lago, O desempenho de supressão de desordem do modelo teórico da infor- 
mação descrito aqui supera aquele das projeções normalmente empregadas utilizando análise de 
componentes principais (Ukrainec e Haykin, 1992, 1996)" 


10.11 ANÁLISE DE COMPONENTES INDEPENDENTES 


Desviamos agora nossa atenção para o último cenário descrito na Fig. 10.24, Para adicionar mais 
especificidade ao problema de processamento de sinal lá formulado, considere o diagrama em blo- 
cos da Fig. 10.9. À operação inicia com um vetor fonte aleatório U(n) definido por 
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Relletor 


FIGURA 10.84 Imagens 
brutas de radar de varredu- 
ra В (azimute traçado em 
funcáo do alcance) para 
polarizações horizontal- 
horizontal (acima) e hori- 
zontal-vertical (abaixo) 





Reiletor 


FIGURA 10.86 Imagem composta calcula- 
da pela minimização da informação mútua 
entre as duas imagens de radar polarizadas 
da Fig. 10.8a 
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Kur Separador | Vetor de 


уу saida! FIGURA 10.9 Diagrama em biocos 
yin) de processador para o problama de 
separação cega de fontes. Os vetores 
и, хе y são valores dos vetores Alea- 
Ambiente desconhecido тюз respectivos M, Ха Y 





U= [U U UY 


" 


onde as m componentes são supridas por um conjunto de fontes independentes, Aqui são considera- 
das sequências temporais; de agora em diante, o argumento п representa o tempo discreto. O vetor 
U é aplicado a um sistema linear cuja caracterização de entrada-saida é definida por uma matriz т- 
por-m não-singular A, chamada de matriz de mistura. O resultado é um vetor de observação m-por- 
і Kin} relacionado а U(n) como segue (veja a Fig. 10.102) 


X = AU (10.72) 





Wetór Vetor de Yetir de Vetor de 
forte observaräo obser ikt saida 
u x x y 
(à) (b) 


FIGURA 10.10 Descrição detalhada da (a) matriz de mistura e (b) da matriz de separação 


onde 
X = (А.Х... X 


O vetor fonte U e a matriz de mistura A são ambos desconhecidos: a única informação disponivel 
para nós é o vetor de observação X. Dado X, o problema é encontrar uma matriz de separação W tal 


que o vetor fonte original U possa ser recuperado a partir do vetor de saida Y definido por (veja a 
Fig. 10.105) 


Y WX (10.73) 
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onde 
Y = É bo» Ad 


Normalmente, assume-se que os sinais de fonte U. L......, U são sinais de média zero, que por sua 
vez significa que os observáveis A, X ,...,.X. são também sinais de média zero. O mesmo é verda- 
deiro para as saidas do separador У, Yu... Y. . 


Podemos assim formular o problema de separação cega de fontes como segue: 


Dadas N realizações independentes do vetor de observação X, encontre uma estimativa da inversa 
da matriz de mistura À. 


A separação de fontes explora fundamentalmente a diversidade espacial pela qual sensores diferen- 
tes que fornecem as realizações do vetor X carregam diferentes misturas de fontes. A diversidade 
espectral, se existir, pode também ser explorada, mas a abordagem fundamental para a separação de 
fontes é essencialmente espacial: procurando por estrutura através dos sensores e não através do 
tempo (Cardoso, 1998a). 

A solução para o problema de separação cega de fontes é realizável, exceto para um escalamento 
arbitrário de cada componente do sinal e permutação de indices. Em outras palavras, é possível 
encontrar uma matriz de separação W cujas linhas individuais são escalamentos e permutações da 
matriz А. Isto é, a solução pode ser expressa na forma 


Y = WX = WAU — DPU 


onde D é uma matriz diagonal não-singular e P é uma matriz de permutação. 

O problema descrito aqui é normalmente referido como o problema de separação cega das 
fontes (de sinal)“ onde o termo “cega” é usado para significar o fato de que a única informação 
usada para recuperar as fontes de sinal originais estã contida em uma realização do vetor de ohser- 
vação X, representada por x. O principio fundamental envolvido na sua solução é chamado de 
análise de componentes independentes (ACI) (Comon, 1994), que pode ser visto como uma exten- 
sáo da anålise de componentes principais (ACP). Enquanto a ACP pode apenas impor independén- 
cia até a segunda ordem restringindo os vetores de direção a serem ortogonais, a ACI impõe inde- 
pendência estatistica sobre as componentes do vetor de saida Y e nào tem restrição de ortogonalidade. 
Note também que, na prática, uma implementação algoritmica de análise de componentes indepen- 
dentes pode apenas buscar as componentes “tão estatisticamente independentes quanto possível”. 


A necessidade para separação cega de fontes surge em diversas aplicações, incluindo as se- 
guintes: 


* Separação de voz. Nesta aplicação, o vetor x consiste de vários sinais de voz que foram 
misturados linearmente, e o objetivo é separá-los (Bell e Sejnowski, 1995). Uma forma 
dificil desta situação, por exemplo, aparece em um ambiente de teleconferência. 

* Processamento de arranjo de antenas. Nesta segunda aplicação, o vetor x representa а 
saida de um arranjo de antenas de radar produzida por vários sinais incidentes de banda 
estreita originários de fontes de direções desconhecidas (Cardoso e Souloumia, 1993; 
Swindlehurst et al., 1997). Aqui novamente o objetivo é separar os sinais de fonte. (Um sinal 
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de banda estreita significa um sinal passa-banda cuja largura de banda é pequena compara- 
da com a frequência da portadora.) 

e Registros biomédicos multisensorais. Nesta terceira aplicação, o vetor x consiste de registros 
constituídos por uma multidão de sensores usados para monitorar sinais biológicos de inte- 
resse. O objetivo pode ser, por exemplo, separar o batimento cardíaco de um feto do batimento 
da mãe (Cardoso, 1998b). 

e Análise de dados do mercado financeiro. Nesta aplicação, o vetor x consiste de um conjun- 
to de dados diferentes do mercado de ações, e o objetivo é extrair o conjunto subjacente de 
componentes dominantes independentes (Back e Weigend, 1998), 


Nestas aplicações, o problema da separação cega de fontes pode ainda ser composto pela possivel 
presença de atrasos de propagação desconhecidos, pela filtragem extensiva imposta às fontes por 
seus ambientes e pela contaminação inevitável do vetor de observação x por ruido. Estas deteriora- 
ções significam que (infelizmente) a forma idealizada de mistura instantânea de sinais descrita na 
Eq. (10.72) é raramente encontrada em situações do mundo real. No que segue, entretanto, ignora- 
remos estas deteriorações para compreendermos os aspectos fundamentais do problema de separa- 
cão cega de fontes. 


Critério para Independência Estatistica 


Sendo a independência estatística a propriedade desejada das componentes do vetor de saida Y para 
a separação cega de fontes, qual é a medida prática que podemos usar para ela? Uma possibilidade 
obvia é escolher a informação mútua КҮҮ entre as variáveis aleatórias Y, e У que constituem 
quaisquer dois componentes do vetor de saída Y. Quando, no caso ideal, KYY) E é zero, as compo- 
nentes Y, e Y são estatisticamente independentes. Isto sugere minimizar a informação mútua entre 
todos os pares de variáveis aleatórias que constituem o vetor de saida Y, Este objetivo é equivalente 
a minimizar a divergência de Kullback-Leibler entre as duas seguintes distribuições: (1) a função de 
densidade de probabilidade fy, W) parametrizada por W e (2) a distribuição fatorial corresponden- 
te definida por 


Ai, we [TA 0.) (10.74) 


onde f,(y,, W) ёа função de densidade de probabilidade marginal de Y. Na verdade, a Eq. (10.74) 
pode ser vista como uma restrição imposta ao algoritmo de aprendizagem, forçando-o a contrastar 
FA y, W) com a distribuição fatorial A. W). Podemos assim formular a terceira variante do prin- 
cipio Infomax para a análise de componentes independentes como (Comon, 1994); 


Dado um vetor m-por- 1, X representando uma combinação linear de m sinais fonte independentes, a 
transformação do vetor de observação X por um sistema neural em um novo vetor Y deve ser realiza- 
da de tal forma que a divergência de Kullback-Leibler entre a função representante da probabilidade 
parametrizada f iy, W) e a distribuição fatorial correspondente f. (y, W) seja minimizada em rela- 
ção à matriz paramétrica desconhecida W. 


A divergência de Kullhack-Leibler para o problema descrito aqui é considerada na Seção 10,5. A 
fórmula que estamos procurando é dada pela Eq. (10.44). Adaptando aquela fórmula à nossa situa- 


Hidden page 


Hidden page 


560  Renrs NeurAs 


K 


13 A А 
HO 


^ m 4 10x.) 
at Hr d+ x с H,(v)| (10.83) 








log f, (у,) = Іово(у,)+ zi + 


Para prosseguirmos, usamos a expansão de um logaritmo: 


? 


log(14- y) = y p (10.84) 


onde todos os termos de ordem trés e de ordem mais alta são ignorados, 


Da nossa discussão anterior recordamos que a fórmula para a entropia marginal de F é (veja a 
Eq. (10.43) 


ie foder, odd, inam 


onde m é o número de fontes, Utilizando as aproximações descritas nas Eqs. (10.78), (10,83) e 
(10.84) e invocando certas integrais que envolvem a densidade gaussiana normalizada 0) e vários 
polinômios de Hermite Н (у), obtemos a seguinte fórmula aproximada para a entropia marginal 
(Madhuaranth e Haykin, 1998); 


а 1 Kl x, (x, 102, J' 
hi Y —] 2 EUR MED DA WI. O 1.38 
Eg Оте) o 4g 1440 
iig кі (к, + 10, ) x ку (к, +10к7,) (10.85) 
E”. 24 24 


Xx, +102.) кё, (xs +102) 
64 l6 432 


Substituindo as Eqs. (10.76) e (10.85) em (10.75), obtemos a divergência de Kullback-Leihler para 
o problema considerado: 


D (W= - АХ) - logldet(W)+= log(2xe) 





&| 12 48 1440 gas 
Ki, 10k. Y ко, (к, 1062) (10.86) 
24 24 
(X (к, + 10x2,) кї, (x, + 10x2,) 
64 1 432 


onde os acumuladores são todos funções da matriz de peso W, 
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onde WT é a inversa da matriz transposta WS. As derivadas parciais dos outros termos (que depen- 
dem de М) na Eq. (10.86) com relação a ww, são (veja as Eqs. (10.80) a (10.82)) 


дк, 








_ 2 

BE =3E[Y*x,] 

- - AE[Y? x, | -12m, ¿El YX, ] 
h 


9 (x, +10x2,)=6£[YX,]-30m, E{YA,] 


Ua 
60m, , Е[Ү X, ]+180m,E[Y.X, ] 
Na derivação de um algoritmo adaptativo, a abordagem usual é substituir os valores esperados por 


seus valores instantáneos. Assim, fazendo esta substituição nestas trés equações, obtemos os se- 
guintes resultados aproximados: 





dk, ei (10.89) 
dui, z[UE 
LINE (10.90) 
dut 
d 1 t E 5 
3w [x,, + LOR) 96 y x, (10.91) 
m 


Substituir as Eqs. (10.88) a (10.91) na expressão para a derivada da Eq. (10.86) em relação a w, 
produz 


d f ma F- z 
Fw. DA) = (Me tp, (10.92) 


onde q(v) é a função de ativação não-monótona do algoritmo de aprendizagem, definida por 
(Madhuranath e Haykin, 1998) 


ly 2, 15, 2 4 112 u 
у) и жр t—X Fr 37 


+128 A 
2 3 2° 15 in ir" 


(10.93) 


A Figura 10.11 traça a função de ativação (1 ) para valores de у, no intervalo —1 < y < 1. Isto cobre 
o intervalo de valores da saida do separador y, para os quais a operação do algoritmo de aprendiza- 
gem está normalmente confinada. E interessante notar que a inclinação da função de ativação € 
positiva no intervalo (-0,734, 0,734); esta é uma exigência para a estabilidade do algoritmo como 
discutido mais adiante nesta seção, 
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FIGURA 10.11 Função da ativação (y) da Eq (10.93) 


Algoritmo de Aprendizagem para ACI 


O objetivo do algoritmo de aprendizagem é minimizar a divergência de Kullback-Leibler entre a 
função de densidade de probabilidade de Y e a distribuição fatorial de Y para i = 1, 2,..., m. Esta 
minimização pode ser implementada usando-se o método da descida do gradiente pelo qual o ajuste 
aplicado ao peso tw, é definido por 


Aw, = =T] 





dw, V (10.94) 
= NEWT P = Фф(у, dx, ) 


onde T] é um parâmetro da taxa de aprendizagem. 
Estendendo a fórmula da Eq. (10.94) para toda a matriz de peso W do separador, podemos 
expressar o ajuste AW aplicado a W como segue: 
AW = (МТ - g(y)x?) (10.95) 
onde x" ё o transposto do vetor de observação т-рог-1 x, e 


ф(у) = [ 0v). qu)... PO 1] (10.96) 


A fórmula para AW dada na Eq. (10.95) pode ser rescrita notando que 


y= xT 
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FIGURA 10.12 Grafo de fluxo de sinal do algoritmo de aprendizagem para separação cega de 
tantes descrito па Eq. (10.104) 


* А expansão de Gram-Charlier usada para calcular a nào-lineanidade (+) inclui um número 
suficiente de termos para produzir uma boa aproximação para a entropia marginal ALF); 
esta exigência é satisfeita, por exemplo, pela função de ativação da Eq. (10.93). 

* A taxa de aprendizagem т é pequena o suficiente para que as estimativas dos acumuladores 
de Y, sejam confiáveis. 


Considerações sobre a Estabilidade 


Uma discussão do problema da separação cega de fontes seria incompleta sem a consideração da 
estabilidade do algoritmo adaptativo descrito na Eq. (10.104). Em Amari et al. (1997), é apresenta- 
da uma análise geral da estabilidade deste algoritmo para uma função de ativação arbitrária tpi). A 
análise é realizada no sentido da convergência assintótica do algoritmo para o ponto de equilibrio 
desejado onde é garantida uma separação de fontes bem-sucedida. 

A Equação (10.104) é uma descrição em tempo discreto do algoritmo de separação cega de 
fontes baseado no gradiente natural. Para o propósito da análise de estabilidade, o algoritmo é 
reformulado em tempo continuo como segue: 
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W (7) = nyy JWE) (10.105) 


onde t representa o tempo continuo, e № (7) = Wiyar. O parámetro da taxa de aprendizagem nt} 
é positivo para todo tempo t. Considere que 


o; = E (10.106) 
k = E 2902 
= (10.107) 
1 d Й 
q= d; ие! (10.108) 


Então, de acordo com Amari et al. (1997), a solução рага а separação é um ponto de equilibrio 
estável do algoritmo adaptativo da Eq. (10.104) para uma função de ativação arbitrária q(-) se e 
somente se as seguintes condições forem satisfeitas 


q, 4120 (10.109) 
k 20 (10.110) 
oo kk >1 (10.111) 


para todo (ij) com i € j. Ав Equações (10.109) a (10.111) são as condições necessárias e suficientes 
para a estabilidade do algoritmo adaptativo da Eq. (10.104). 


Considerações sobre a Convergência 


Dado que tenhamos satisfeito as exigências de estabilidade das Eqs. (10.109) a (10,111), o que 
podemos dizer sobre o comportamento da convergência do algoritmo de aprendizagem da Eq. (10.104) 
baseado na função de ativação da Eq. (10.93)? Com base em um estudo experimental relatado em 
Madhuranath e Haykin (1998), podemos dizer, grosso modo, que hã duas fases no processo de 
convergência: 


e Na fase I, a уагійпсіас (л) da variável aleatória Y na saída do separador passa por um 
periodo de ajuste, após o que ela atinge um valor razoavelmente estável. Durante esta fase, 
os acumuladores K, K,, e K,, permanecem essencialmente constantes. 

e Na fase Il, os acumuladores K ,, к,, e K, passam por um período de ajustes especificos, 
após o que atingem valores razoavelmente estáveis. Neste ponto, podemos dizer que o 
algoritmo convergiu. 


Parece assim que uma estimativa da variância e dos acumuladores de ordem mais alta das saidas 
do separador (i.e., sinais separados de fontes) forma a base de um procedimento para estudar о 
comportamento da convergência do algoritmo de aprendizagem da Eq. (10.104), É também inte- 
ressante notarmos que é apenas na fase II que o algoritmo conforma-se à expansão de Gram- 
Charlier. 
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onde P = ір.) = WA. O indice de desempenho 4 é uma medida da diagonalidade da matriz P. Se a 
matriz P for perfeitamente diagonal $ = 0. Para uma matriz P cujos elementos não estão concentra- 
dos na diagonal principal, o indice de desempenho # será alto. 

Para as formas de onda mostradas na Fig. 10,13, $ = 0,0606, 


10.13 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA 


O método da análise de componentes independentes (i.e, a terceira variante do principio Infomax) 
desento na seção anterior é apenas um entre vários métodos que foram propostos na literatura para 
separação cega de fontes. Em um contexto teórico da informação, entretanto, há apenas dois outros 
métodos para realizar a tarefa de separação de fontes de uma maneira náo-supervisionada: a máxi- 
ma verossimilhança e a máxima entropia, Nesta seção, discutimos a máxima verossimilhança. 

A máxima verossimilhança é um procedimento bem-estabelecido para a estimação estatística 
com algumas propriedades desejáveis; veja a nota 5 do Capitulo 7. Neste procedimento, primeiro 
formulamos uma função logaritmo da verossimilhança e então a otimizamos em relação ao vetor de 
parâmetros do modelo probabilistico considerado. Da discussão apresentada no Capitulo 7, recor- 
damos que a função de verossimilhança é a função de densidade de probabilidade de um conjunto 
de dados em um determinado modelo, mas vista como uma função dos parâmetros desconhecidos 
do modelo. Referindo-nos à Fig. 10.9, considere que f (+) represente a função de densidade de 
probabilidade do vetor aleatório fonte U. Então, a função de densidade de probabilidade do vetor de 
observação X = AU na saida do misturador € definida por (Papoulis, 1984) 


fix, A) = [del AN SIA x) (10.112) 


onde det(A) é o determinante da matriz de mistura A. Considere que $= lxh represente um 


conjunto de N realizações independentes do vetor aleatório X. Podemos então escrever 


/(%,А)= | [1.0.4] (10.113) 
Em] 


E mais conveniente trabalharmos com a versão normalizada (dividida pelo tamanho da amostra М) 
da função logaritmo da verossimilhança, como mostrado por 


| Ix 
юв fU A) == Y log f(x, A) 
el +" del 


= У log (Ах) log|det(AY 
** dal 


Considere que y = А'х seja uma realização do vetor aleatório Y na saída do separador e que possa- 
mos assi escrever 


| iv , 
v leg A (S A) Е x 2, log f (v,) — logidet( AY (10.114) 
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Considere que A! = W e que f (y, W) represente a função de densidade de probabilidade de Y 
parametrizada por W. Então, reconhecendo que o somatório na Eq. (10.114) é a média da amostra 
de log f, (y,), obtemos da lei dos grandes números que, com probabilidade 1, quando o tamanho da 
amostra N se aproxima do infinito: 


LOW) = lim 43 log f,.(y, ) + logdet(W) 
CUP IY bel 
= Ellog f,(y, logde Wwy (10.115) 


- | fO. WIlog fy) + logde wy 


onde o valor esperado na segunda linha ё em relação a Y. A quantidade L(W) é a função logaritmo 
da verossimilhança desejada. Escrevendo 


uty) 
nm E му rmm 


podemos expressar L(W) na forma equivalente 


ЦУ) = IR E AD ss f fy. W)log f, (y, W)dy + logdet(W) 


=D, y, ACY, W) + logdet(W) (10,116) 


onde h(Y,W) é a entropia diferencial do vetor aleatório Y parametrizado por W, e D., ёа diver- 
géncia de Kullback-Leibler entre / (у, W) e / (у). Usando a Eq. (10.76) em (10. 116), podemos 
simplificar a expressão рага a função logaritmo da verossimilhança L(W) como segue (Cardoso, 
19983): 


L[W) = Dip h( X) (10.117) 


onde h(X) é a entropia diferencial do vetor aleatório X na entrada do separador. À única quantidade 
na Eq. (10.117) que depende do vetor de peso W do separador é a divergência de Kullback- 
Leibler D Portanto, concluimos da Eq. (10.117) que maximizar a função logaritmo da 
mili L(W) é equivalente a minimizar a divergência de Kullback-Leibler D... , isto é, 
casar a distribuição de probabilidade da saida do separador Y com aquela do vetor fonte original U, 
o que é intuitivamente razoável. 


Relação entre a Máxima Verossimilhança e a Análise 
de Componentes Independentes 


Aplicando a decomposição de Pitágoras descrita na Eg. (10.45) ao problema considerado, podemos 
expressar a divergência de Kullback-Leibler D «lg Para а máxima verossimilhanga como segue: 
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Du = 0р + Paus (10.118) 


A primeira divergência de Kullback-Leibler D, |; ne lado direito da Eq. (10.118) é uma medida de 
descasamento estrutural que caracteriza o método de análise de componentes independentes, À 
segunda divergência de Kullback-Leibler D; y, é uma medida de descasamento marginal entre a 
distribuição marginal da saída do separador Y e a distribuição do vetor fonte original U. Podemos 
assim expressar o critério “global” de casamento da distribuição por máxima verossimilhança como 
segue (Amari, 1997, Cardoso. 1998a): 


Г Descasamento) | Descasamento) /Descasamento 
= (10.119) 


À total ] estrutural Ы | marginal 
O “descasamento estrutural” se refere à estrutura de uma distribuição relativa а um conjunto de 
variáveis independentes, enquanto que “descasamento marginal" se refere ao descasamento entre 
as distribuições marginais individuais. 

Sob a condição ideal W = A (i.e., separação cega perfeita de fontes), tanto o descasamento 
estrutural como o descasamento marginal desaparecem, Neste ponto, a máxima verossimilhança e a 
análise de componentes independentes produzem a mesma solução. A relação idealizada entre a 
máxima verossimilhança e a análise de componentes independentes é mostrada na Fig. 10.14 (Car- 
doso, 1996; Amari, 1997). Nesta figura, $ é o conjunto de todas as funções de densidade de proba- 
bilidade / (y) do vetor aleatório Y na saida do separador, 3 é o conjunto de todas as distribuições de 
probabilidade independentes, isto é, aquelas na forma de produto. Ambos 5? e + são de dimensão 
infinita. O conjunto 27 = 1f Cy, W)} é o conjunto finito de distribuições de probabilidade medidas na 
saída do separador. O conjunto & tem dimensionalidade m’, onde m é a dimensão de Y, ca matriz de 
peso W é um sistema de coordenadas dentro dele. Da Fig. 10.14 vemos claramente que tanto D, i. 
сото D. ,, são minimizados em W = A”, E interessante provarmos que os conjuntos “ e 3 são 
mesmo ortogonais no seu ponto de interseção definido pela função de densidade de probabilidade 
Aly). 

Um algoritmo para separação cega de fontes baseado na máxima verossimilhança deve incluir 
condições para estimar às distribuições relativas às fontes quando são desconhecidas, o que é tipica- 
mente o caso. Os parâmetros para esta estimação podem ser adaptados assim como adaptamos a 
matriz de peso do separador W. Em outras palavras, devemos realizar uma estimação conjunta da 
matriz de mistura e (algumas características) das distribuições das fontes (Cardoso, 1997, 1998a); 
uma abordagem elegante e bem-desenvolvida para esta estimação é apresentada em Pham et al. 
(1992, 1997). 


10.14 MÉTODO DA MÁXIMA ENTROPIA 


O método da máxima entropia para a separação de fontes foi proposto por Belle Sejnowski (1995). 
A Figura 10.15 mostra o diagrama em blocos do sistema baseado neste método. Como anteriormen- 
te, o separador opera sobre o vetor de observação X para produzir uma saida Y = WX que é uma 
estimativa do vetor fonte original U, O vetor Y é transformado em um vetor Z passando-o através de 
uma não-linearidade de múltiplas componentes representada por G(-), que é monótona e pode ser 
invertida. Assim, ao contrário de Y, garante-se que o vetor Z tenha uma entropia diferencial limitada 
A(Z) para um separador arbitrariamente grande. Para uma näo-linearidade Gi) predeterminada, o 
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F: D conjunto total de 
distribuições de probalidade 
ir) 










Bf WJ 








Distribuição da 
salda do separador 
Fly. W) 






foly: Distribuição 
verdadeira da fonte 


FIGURA 10.14 llustragáo da relação entre a máxima verossimilhança e a análise de componentes inda- 
pendentes para separação cega de fontes. А máxima verossimilhança minimiza D kc enquanto que a 
análise de componentes independentes minimiza D. T i 


método da máxima entropia produz uma estimativa do vetor fonte original U maximizando a entropia 
A(Z) em relação a W. Com base na Eq. (10.55) derivada no Exemplo 10.6, vemos que o método da 
máxima entropia está intimamente relacionado ao principio Infomax." 

A nào-linearidade G é um mapa diagonal descrito por 


+ E 1 (9 ) 
Fi 2.0) 
+ E = 


Jn 


m 


: (10.120) 
У, Era] |2 
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h(£) = Ellog f, (z)] 


ERC (10.126) 
in] Lon 


=-D calculada em u = V(z) 


fu Д 


Vemos assim que maximizar a entropia AZ) é equivalente a minimizar a divergência de Kullback- 
Leibler entre f, (u) e uma função de densidade de probabilidade de U definida por [det (и). 

Suponha agora que a variável aleatória Z (i.e., o i-ésimo elemento de Z) seja uniformemente 
distribuida dentro do intervalo [0, 1 ] para todo i. De acordo com o Exemplo 10.1, a entropia HZ) é 
então igual a zero. Correspondentemente, constatamos da Eq. (10.126) que 


fu) = [det (Ju) (10.127) 


Sab a condição ideal W = A, esta relação se reduz a 


a 
n wen para todo ; (10.128) 
A ES ENE 


De modo inverso, podemos dizer que, se a Eq. (10.128) for satisfeita, então maximizar h(Z) produz 
W = A? ea separação cega de fontes é assim realizada. 

Podemos agora resumir os resultados obtidos sobre o método da máxima entropia para a sepa- 
ração cega de fontes como segue (Bell e Sejnowski, 1995): 


Considere que a náo-linearidade na saída do separador da Fig. 10.15 seja definida em termos da 
distribuição original das fontes como 


z = giy) 


-[ ў, (и du, paraizl2,..,m (10.129) 


Maximizar a entropia do vetor aleatório Z na saida da näo-linearidade С é então equivalente a 
W = A о que produz a separação perfeita das fontes, 


Os métodos da máxima entropia e da máxima verossimilhança para separação сера de fontes são 
de fato equivalentes sob a condição de que a variável aleatória Z seja uniformemente distribuida 
dentro do intervalo [0, 1] para todo i (Cardoso, 1997). Para provarmos, esta relação, primeiro 
usamos a regra da cadeia do cálculo para rescrever a Eq. (10.125) na forma equivalente 


= ў: 32 9, dx, 
dy dx, du, 
. (10.130) 

dz, 
"dts 


kal 
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A matriz jacobiana J pode assim ser expressa como 








Ј = DWA 
onde D é a matriz diagonal 
. {дт de, de 
D= фар 2, Qu 
{ж ду. "dy, | 


Assim, 


Не) = dewa = (10.131) 


Uma estimativa da função de densidade de probabilidade f, (u) parametrizada pela matriz de peso 
W e a não-linearidade G, com base na Eg. (10.131), pode ser escrita formalmente como (Roth e 
Baram. 1996) 


nut 


fu W,G) eder wa) 2800 (10.132) 
Jl ud ( 


Vemos assim que, sob esta condição, maximizar a função logaritmo da verossimilhança log / (и 
М.С) é equivalente a maximizar a entropia A(Z) para a separação сера de fontes. 1510 é, os métodos 
da máxima entropia e da máxima verossimilhança são equivalentes. 


Algoritmo de Aprendizagem para Separação Cega de Fontes 


Com referência à segunda linha da Eg. (10.126), notamos que, como a distribuição das fontes é 
tipicamente fixa, maximizar a entropia Az) requer maximizar o valor esperado do termo do deno- 
minador log |det(J(u))| em relação à matriz de peso W. Tendo como objetivo um algoritmo adaptativo 
para realizar esta computação, podemos considerar a função objetivo instantânea 


Ф log idet(J)| (10.133) 


Substituir a Eq. (10.131) em (10.133) produz 


Ф = logldet( Al + logldet( W) «Y ES (10.134) 
ivl i 


Assim, diferenciando Ф em relação à matriz de peso W do separador, obtemos (veja o Problema 
10.16) 


оф - чч д dz, 
— = W — = 10.135 
эү +, AV os 3r | ( ) 
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р 
AW = п 
aw Siy 


: А (10.137) 

= WW +(1-2z)x") 
onde тү é o parámetro da taxa de aprendizagem. Como no caso da análise de componentes indepen- 
dentes, podemos eliminar a necessidade de inverter a matriz de pesos transposta W* usando o gra- 


diente natural, o que é equivalente a multiplicar a Eq. (10.137) pelo produto matricial WW. Este 
escalamento ótimo produz a formula desejada para a modificação dos pesos: 


AW = n(W^ +(1- 2) WW 
= n(Le(1- 22 Wx) JW (10.138) 
= n + (1 — 22)y JW 


onde o vetor y é a saida do separador, O algoritmo de aprendizagem para calcular a matriz de peso 
W é com isso 


Win 1) = Win) + тї + (1 — 22(2))y"(n)) Wn) (10.139) 


O algoritmo é inicializado com W(0) selecionado de um conjunto uniformemente distribuido de 
números pequenos. 

Considerações teóricas c investigações experimentais mostraram que o algoritmo de aprendi- 
zagem da Eq. (10,139) é limitado à separação de fontes com distribuições supergaussianas (Bell е 
Sejnowski, 1995); para a definição de distribuições supergaussianas, veja a nota 18. Esta limitação 
é uma consequência direta do uso de uma função logística para a nào-linearidade no terminal de 
saida do sistema da Fig. 10,15. Em particular, a função logistica impõe conhecimento prévio, isto É 
uma forma supergaussiana, sobre a distribuição da fonte. Entretanto, a restrição no método da må- 
xima entropia à função logistica não representa nada a mais do que a restrição do método da máxi- 
ma verossimilhança a algum conhecimento prévio. A aplicação do método da máxima entropia 
pode ser ampliada para um espectro mais largo de distribuições de fonte modificando-se o algoritmo 
de aprendizagem da Eq. (10.138) de modo a considerar a estimativa conjunta da distribuição relati- 
va às fontes e à matriz de mistura, Esta exigência é similar àquela discutida para a máxima 
verossimilhança na seção anterior. 


10.15 RESUMO E DISCUSSÃO 


Neste capitulo, estabelecemos a informação mútua, fundamentada na teoria da informação de 
Shannon, como ferramenta estatistica básica para a auto-organização. A informação mútua entre 
um processo de entrada e um processo de saída tem algumas propriedades únicas que sugerem sua 
adoção como a função objetivo a ser otimizada para a aprendizagem auto-organizada. De fato, 


alguns princípios importantes para a auto-organização emergiram da discussão apresentada neste 
capitulo: 
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e O principio da máxima informação mutua (Infomax) (Linsker, 1988). Este principio, na sua 
forma básica, é bem adequado ao desenvolvimento de modelos auto-organizados e mapas 
de caracteristicas, 

* А primeira variante do Infomax, de Becker e Hinton (1992), é bem adequada para o 
processamento de imagens onde o objetivo é a descoberta de propriedades de uma entrada 
sensorial ruidosa exibindo coerência através tanto do espaço como do tempo, 

* A segunda variante do Infomax, de Ukrainec e Haykin (1992), encontra aplicações no 
processamento dual de imagens no qual o objetivo é maximizar a diferenciação espacial entre 
regiões correspondentes de duas imagens separadas (vistas) de um ambiente de interesse. 

e А terceira variante do Infomax para analise de componentes independentes foi proposta 
por Comon (1994), embora suas raizes remontem à hipótese de Barlow (Barlow, 1985, 
1989). Apesar disso, em Comon (1994) foi apresentada pela primeira vez uma formulação 
rıgorosa da análise de componentes independentes. 

+ O método da máxima entropia de Bell e Sejnowski (1995), que está também relacionado 
com o princípio Infomax. A máxima entropia é equivalente à máxima verossimilhança 
(Cardoso, 1997). 


A análise de componentes independentes e o método da máxima entropia fornecem dois métodos 
alternativos para a separação cega de fontes, cada um oferecendo atributos próprios. Um algoritmo 
para separação cega de fontes baseado no método da máxima entropia é simples de implementar, 
enquanto que um algoritmo correspondente baseado na análise de componentes independentes é 
mais elaborado na derivacáo, mas pode ter uma aplicabilidade mais ampla. 

Uma motivação neurobiológica que é frequentemente citada para a separação cega de fontes é 
o fenômeno da festa de coquetel, Este fenômeno se refere à notável habilidade humana de sintoni- 
zar seletivamente e seguir uma entrada auditiva de interesse em um ambiente ruidoso. Como expli- 
cado no Capítulo 2, o modelo neurobiológico envolvido na solução deste problema muito dificil de 
processamento de sinal é muito mais complicado do que aquilo que estã envolvido no modelo 
idealizado descrito na Fig. 10.9. О modelo neurobiológico envolve as formas de processamento 
tanto temporal como espacial, que são necessárias para lidar com atrasos desconhecidos, reverbera- 
ção e ruído. Agora que temos um entendimento razoavelmente firme das questões básicas envolvi- 
das na solução neural para o problema padrão de separação cega de fontes, talvez seja oportuno 
atacarmos problemas da vida real em uma escala comparável ao fenômeno da festa de coquetel. 

Uma outra área de pesquisa em aberto, merecedora de atenção detalhada, é a deconvolução 
cega. Deconvolução é uma operação de processamento de sinal que idealmente desfaz os efeitos da 
convolução realizada por um sistema linear invariante no tempo operando no sinal de entrada. Mais 
especificamente, па deconvolução ordinária tanto o sinal de saida como o sistema são conhecidos, 
€ o objetivo é reconstruir aquilo que o smal de entrada deve ter sido. Na deconvolução cega, ou em 
termos mais precisos, deconvolução náo-supervisionada, apenas o sinal de saída é conhecido e 
pode haver também informação sobre as estatísticas da fonte, o objetivo é encontrar o sinal de 
entrada, o sistema, ou ambos. Claramente, a deconvolução cega é uma tarefa de processamento de 
sinal mais dificil que a deconvolução ordinária. Embora a deconvolução cega tenha de fato recebido 
bastante atenção na literatura (Haykin, 19942), o nosso entendimento de uma abordagem teórica da 
informação para a deconvolução cega quando comparado ao problema da separação cega de fontes 
está em um estágio inicial de desenvolvimento (Douglas e Haykin, 1997). Além disso, uma solução 
efetiva em termos de custos para a equalização cega de um canal hostil tal como o canal de comuni- 
cação móvel é tão desafiador quanto o problema da festa de coquetel. 
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Em resumo, a adaptação cega, seja no contexto da separação de fontes ou da deconvolução, 
tem um longo caminho a percorrer antes de alcançar um estágio maduro de desenvolvimento com- 
parável ao da aprendizagem supervisionada. 


NOTAS E REFERÊNCIAS 


Para um tratamento detalhado da teoria da informação, veja à livro de Cover e Thomas 
(1991); veja também Gray (1990). Para uma coleção de artigos sobre o desenvolvimento 
da teoria da informação (incluindo o artigo clássico de 1948 de Shannon), veja Slepian 
(1973). O artigo de Shannon está também reproduzido, com pequenas revisões, nos livros 
de Shannon e Weaver (1949) e Sloane e Wyner (1003). 

Para uma breve revisão dos importantes principios da teoria da informação tendo em 
mente o processamento neural, veja Atick (1992), Para um tratamento da teoria da infor- 
mação de uma perspectiva biológica, veja Yockey (1992). 

O principio da máxima informação mútua de Linsker para à auto-organização não deve ser 
confundido com a regra da preservação do conteúdo de informação para tomada de deci- 
são, uma regra prática que é brevemente discutida no Capítulo 7. 

Para uma revisão da literatura sobre a relação entre teoria da informação e percepção, veja 
Linsker (1990c) e Atick (1992). 

O termo “entropia”, em um contexto de teoria da informação, deriva seu nome da analogia 
com a entropia na termodinâmica; esta última quantidade é definida por (veja o Capitulo 
11) 


H = -k, Y p, logp, 


onde &, é a constante de Boltzmann e p é a probabilidade de que o sistema esteja no 
estado ct, Exceto pelo fator £,, a fórmula para a entropia Aina termodinâmica tem exatamente 
a mesma forma matemática da definição de entropia dada na Eq. (10.8) 

Em Shore e Johnson (1980), prova-se que o principio da máxima entropia é correto no 
seguinte sentido: 


Dado conhecimento prévio na forma de restrições, hà apenas uma distribuição que 
satisfaz estas restrições que pode ser escolhida por um procedimento que satisfaça os 
“axiomas de consistência”, esta distribuição única é definida como a entropia de 
maximização, 


São quatro os axiomas de consistência: 
1. Unicidade: o resultado deve ser único, 
II. Invariáncia: a escolha de coordenadas não deve afetar o resultado. 

III. Independência do sistema: não deve fazer diferença se é levada em conta informa- 
ção independente sobre sistemas independentes separadamente, em termos de den- 
sidades diferentes, ou de forma conjunta, em termos de uma densidade conjunta. 

IV. Independência de subconjunto: não deve importar se um subconjunto independente 
de estados do sistema é tratado em termos de uma densidade condicional separada 
ou em termos da densidade total do sistema, 

Em Shore e Johnson (1980), é mostrado que a entropia relativa ou a divergência de Kullback- 

Leibler também satisfaz os axiomas de consistência. 


Para uma discussão do método dos multiplicadores de Lagrange, veja o livro de Рогу 
(1975). 
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O termo KA; Y) era originalmente referido como а taxa de transmissão de informação por 


Shannon (1948). Hoje, contudo, este termo é normalmente referido como a informação 
mútua entre as variáveis aleatórias X e Y 


Para provar a decomposição da Eq. (10.45), podemos proceder como segue. Por definição 


temos 
Bo = | ею aa 


- f aod SE A 
oa [ren 


- 4), 
ZUGE оа 





Das definições de Fa (x) €/,(u), temos que 


fa. 

Le), MAS 
= o = 

fux) (fico 


ET A 





i| f. x) 


Considere que É represente a integra! na última linha da Eq. (1). Podemos então escrever 


a Kx) 
B x 
B | лою AD ls 


По 
= |: (log E dx 
> lr.) (2) 


- ЕГ od — ] | м хуи" la 
f oe 


onde na última linha usamos a definição da Eq. (10.39). A integral na Eq. (2) é a divergên- 
cia de Kullback-Leibler D |, para = 1, 2...., m. Para colocar a expressão para Я na sua 
forma final, notamos que a área sob de EM (x, ) é unitária, e portanto escrevemos 
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12. 


13. 


14. 


=. = „ f Fh (x) | i 
FR ПЛ, [m ae dx, kr 
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- Пло 6) 
=| fo del |ж 


ls б) 


V deel 


onde na primeira linha usamos a definição dx = dx dx” como descrito na Seção 10.5. 
Assim, substituindo a Eg. (3) em (1), obtemos a decomposição desejada: 
Р... жр, +D, 


{л |} fait 


Nadal e Parga (1994, 1997) também discutem a relação entre o Infomax e a redução de 
redundância, chegando a uma conclusão similar de que a maximização da informação 
mútua entre o vetor de entrada e o vetor de saida de um sistema neural leva à redução de 
dados. Haft e van Hemmen (1998) discutem a implementação de filtros Infomax para a 
retina. Eles mostram que a redundância é essencial para alcançar robustez contra ruido de 
uma representação interna do ambiente como cla é produzida por um sistema como a 
retina, 

Becker e Hinton (1992) usam a acrossemia |, para se referirem à primeira variante do 
principio Infomax. 

Em Uttley (1970) considera-se um caminho de informação negativa para otimizar o nega- 
tivo da informação mútua entre os sinais na entrada e a saida do caminho. Mostra-se que 
um sistema assim se adapta para se tornar um discriminador do padrão mais freqüente que 
ocorre no conjunto de sinais de entrada durante а adaptação. O modelo € chamado de 
“informon”, que se relaciona fracamente com a segunda variante do principio Infomax. 
O sistema descrito em Ükrainec e Haykın (1996) inclut um processador de detecção a 
posteriori que utiliza informação prévia sobre a localização do refletor ao longo da borda 
entre água e terra do curso d'água. Um processador de lógica nebulosa (fuzzy) combina o 
desempenho da detecção primária com a saída de um detector de borda baseado em visão 
para remover efetivamente alarmes falsos, resultando assim em uma melhoria extra do 
desempenho do sistema, 

А separação cega de fontes remonta ao artigo fundamental de Hérault, Jutten e Ans (1985). 
Para um relato histórico do problema de separação cega de fontes, veja Nadal e Parga 
(1997; este artigo também enfatiza os aspectos neurobiológicos do problema. Para uma 
visão gera! aprofundada da separação cega de fontes, com ênfase nos principios relaciona- 
dos com o processamento de sinal, veja Cardoso (19983). 

Aproximação da Função de Densidade de Probabilidade 

(a) A Expansão de Gram-Charlier 

Considere que q (00) represente a função característica de uma variável aleatória Y tendo 
a função de densidade de probabilidade (т. Por definição temos 


iin | fe^" dy (1) 


onde j —4/-] e wéreal. Em outras palavras, а função característica qp (00) é a transforma- 
da de Fourier da função de densidade de probabilidade у), exceto por uma troca de sinal 
no expoente. Em geral, a função característica q (00) é um número complexo cujas partes 
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real e imaginária são finitas para todo б). Se o k-ésimo momento da variável aleatória Y 
existir, então qp (69) pode ser expandida em uma série de potências em uma vizinhança de 
(à = O como segue: 


ү 





= | 
oor Em, (2) 


onde m, é o k-ésimo momento de ordem da variável aleatória Y; € definido por 


m, = E|Y*] 


- (3) 
= | v finder 


Deriva-se a Equação (2) simplesmente substituindo a expansão da função exponencial e” 
na Eq. (1), trocando a ordem do somatório e da integral c então invocando a definição da 
Eq. (3). Se a função característica q (ш) puder ser expandida como na Eq. (2), então pode- 
mos também expandir o logaritmo de q (0) como segue (Wilks, 1962): 


logo (а) = У,у (4) 


umi 


onde x é denominado o acumulador ou semi-invariante de ordem n da variável aleatória Y. 
A Equação (4) é derivada expandindo-se o logaritmo de q (6) em uma série de Taylor em 
jw em torno de w = 0. 

Para simplificar o desenvolvimento, a partir de agora fazemos duas suposições: 
1. A variável aleatória Y tem média zero, isto é, u = 0. 
2. А variância de Y é normalizada em relação à unidade, isto é, o” = I. 
Correspondentemente, temos к, = 0, к, = 1, e a expansão na Eg. (4) se torna 





logi, (a) = „Ошу + Da jay (5) 
ama Cê 
Agora, considere que 
қо) = Y “joy 
па} M 


Podemos então rescrever a eq. (5) como 


| x 
log, (10) = zum) + (00) 


Isto é, a função caracteristica q (60) pode ser expressa como o produto de dois termos 
exponenciais: 


оа) = єч -2 ento) (6) 


Usando a expansão em série de potência para o termo exponencial exp(r(00)), temos 
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ехр(г(ш)) = |+ 5 E (7) 
Em] ' 


Substituindo a Ед. (7) em (6) e agrupando os termos com potências iguais de (jo) no 
somatório duplo resultante, obtemos novos coeficientes da expansão de qp (00) tais como 
estes mostrados aqui: 


e =Ú 
e, =й 
к, 
ou 
к, 
e= 
(UM 
„ку 
75 ^ 120 
і 1 
= ——{к‚ + 10x 
5,7 Tam Ne 2) 


1 
cz 5040 18" + 35K,K,) 


| " 
lk, + SKK, + JAK | 
^7 A20 * = * 


e assim por diante. Podemos agora fazer a transformada inversa de Fourier de (p (00) para 
obter uma expansão para à função de densidade de probabilidade ў (ур. Em particular, 
podemos escrever 


fs at) 1+ Ys F no) (8) 


dal j 


onde dy) é a função de densidade de probabilidade de uma variável aleatoria gaussiana 
normalizada de média zero e variância unitária: 


wiri е ME (9) 
x 


A expansão da Eq. (8) é conhecida como a série de Gram-Charlier de uma função de 
densidade de probabilidade em termos da função gaussiana e de suas derivadas (Stuart e 
Ord, 1994). Uma expansão deste tipo tem um apelo intuitivo, Em particular, se a variável 
aleatória Y consiste da soma de um número de variáveis aleatórias independente e 
identicamente distribuidas, então quando o número dessas variáveis aumenta, o teorema 
do limite central nos diz que a variável aleatória Y é assintoticamente gaussiana. O primei- 
ro termo da série de Gram-Charlier é de fato gaussiano, o que significa que para esta soma 
ó resto da série se aproxima de zero quando o número de variáveis na soma aumenta. 


O polinômio de Hermite Н (v) que aparece na Eq. (3) é definido em termos das &- 
ésimas derivadas de су) por 


o) = (Po) (10) 


Alguns polinômios de Hermite típicos são 
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Haly)= 

Н(у}= 

Hr) = -1 

Ну) = y! -3v 

Hrs у* -6v +3 

Hv)z у =10y* + 15y 
Hy) у - 159^ + 45y* - 18 


Uma relação recursiva para estes polinômios é 


Н. (y) =yH 0) - &H, (у) (11) 


Uma propriedade particularmente útil dos polinômios de Hermite é que 77 (y) e a m-ésima 
derivada da função gaussiana Quy) são biortogonais, como mostrado por 


Г Н, Oo" (улау = (md, (Е, т) = Ol (12) 


6, é 0 delta de Kronecker, que é igual à unidade se = m c zero caso contrário. 

É importante se notar que a ordem natural dos termos não é a melhor para a série de 
Gram-Charlier. Em vez disso, os termos listados aqui em parênteses devem ser agrupados 
(Helstrom, 1968) 


= (0), (3), (4, 6), (5, 7, 9) (13) 


Os elementos destes grupos são normalmente da mesma ordem de magnitude. Se retiver- 
mos termos até k = 4, por exemplo, devemos também incluir o termo k = 6. 

(b) A Expansão de Edgeworth 

Como anteriormente, considere que cuy) represente a função de densidade de probabilida- 
de de uma variável aleatória normalizada para média zero e variância unitária. À expansão 
de Edgeworth da função de densidade de probabilidade de uma variável aleatória Y em 
torno da aproximação gaussiana av) é dada por (Comon, 1994; Stuart e Ord, 1994) 


E 














ere guys | HOO H0) 4,0) 
av) 
ET mos TER (14) 
kd eS Я 15400€j p , 
= 35% ү, iv) m. iL V) + E Ha) 


onde к, representa o acumulador de ordem ѓ da variável aleatória escalar padronizada Y, e 
Н, representa o polinômio de Hermite de ordem i. A Equação (14) é chamada de série de 
Edgeworth. 
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15. 


Ih. 


17. 


18. 


A caracteristica-chave da expansão de Edgeworth é que seus coeficientes decrescem 
uniformemente. Por outro lado, os termos na expansão de Gram-Charlier da Eq. (8) não 
tendem uniformemente a zero do ponto de vista de erros numéricos; isto é, em geral ne- 
nhum termo é desprezível comparado com um termo precedente. É por esta razão que о 
procedimento recomendável para truncar a expansão de Gram-Charlier é seguir o agrupa- 
mento de termos deserito na Eq. (13). 

A idéia de usar FED = (VDYW"W em vez do gradiente usual VO para resolver o problema 
de separação de fontes é descrita em Cardoso e Laheld (1996), Lã, V*D é referido como o 
gradiente relativo, Este gradiente é exatamente o mesmo que o gradiente natural, cuja 
definição resulta de uma perspectiva geométrica da informação (Amari, 1998; Amari et al. 
1996). Um algoritmo similar foi descrito anteriormente em Cichocki e Moszezy ski (1992) 
e Cichocki (et al., 1994), 

No espaço riemanniano de dimensão n, por exemplo, a norma quadrada de um vetor a é 
definida por 


lal! = Y Y аа, 
һай fel 


onde os E, são funções das coordenadas х, x,...., x, do espaço riemanniano, E, =8,€0 
lado direito desta expressão é sempre positivo. Esta expressão é uma generalização da 
fórmula euclidiana para uma norma quadrada: 


lai! = » 


Para uma discussão da estrutura riemanniana, veja Amari (1987) e Murray e Rice (1993), 

Belle Sejnowski (1995) se referem a seu método de separação cega de fontes como Infomax 

com base па Eq. (10,55) que define a relação entre a entropia MV) e a mformação mútua 

ДҮ; X). Entretanto, a terminologia preferivel é "método da máxima entropia” já que en- 

volve a maximização da entropia ME), onde Z= GO) Uma nota de advertência; o méta- 

do da máxima entropia para a separação cega de fontes de Bell e Sejnowski mão deve ser 

confundido com à método de máxima entropia (MME) de Burg (1975) para a análise 

espectral. 

Diz-se que uma variável aleatória X é suhgaussiana (Benveniste et al., 1987) se: 

a ela for umformemente distribuida, ou 

+ a sua função de densidade de probabilidade f fx) puder ser expressa na forma exp): 
gix)) onde р(х) é uma função par que é diferenciável, exceto possivelmente na origem 
cota) eg fx são estritamente crescentes para 0 < x < ee, 

Podemos ter, por exemplo. glx) = pr com B > 2. 

Entretanto, se y (xy for estritamente decrescente рага 0 < x < ee e as demais propri- 
edades mencionadas forem válidas, a variável aleatória X é dita ser supergaussiana 
(Benveniste et al., 1987). Podemos ter, por exemplo gix) = [e]? com B < 2. 

Algumas vezes (talvez de um modo abusivo) o sinal da curtose de uma variável alea- 
tória é usado como indicador de sua subgausstanidade ou supergaussianidade, A curtose 
de uma variável aleatória X é definida por 


| Elx" 
MCN 


Baseado nisto, a variável aleatória X é dita ser subgaussiana ou supergaussiana se a curtose 
K (x) for negativa ou positiva, respectivamente. 
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PROBLEMAS 


O Princípio MaxEnt 


10.1 O suporte de uma variável aleatória X (i.e., o intervalo de valores para os quais ela é nào 
zero) é definido por [a, ^]; não hà nenhuma outra restrição imposta a esta variável aleató- 
ria. Qual é a distribuição de entropia máxima para esta variável aleatória? Justifique a sua 
resposta. 


A Informação Mútua 


10.2 Derive as propriedades da informação mútua NX, Y) entre dois valores aleatórios com 
valores continuos X e Y como descrito na Seção 10,4. 

10.3  Considere um vetor de entrada aleatório X constituido de uma componente primária X, e 
de uma componente de contexto X... Defina 


y= a, X, 
Z =b X, 


Como a informação mútua entre X, e X, está relacionada com a informação mútua entre Y 
e 27 Assuma que o modelo de probabilidade de X é definido pela distribuição gaussiana 
A 


BEE 


fix) 
onde p é o vetor média de X e E é a matriz de covariância. 

10,4 Neste problema, exploramos o uso da entropia relativa ou divergência de Kullback-Leibler 
para derivar um algoritmo de aprendizagem supervisionada para perceptrons de mültiplas 
camadas (Hopfield, 1987b; Baum e Wilczek, 1988). Para sermos especificos, considere 
um perceptron de mültiplas camadas consistindo de uma camada de entrada, uma camada 
oculta e uma camada de saída. Dado um caso ou exemplo à apresentado na entrada, atri- 
bui-se à saida do neurônio k na camada de saida uma interpretação probabilistica: 


Vite = Pre 


Correspondentemente, considere que с, represente o valor real (verdadeiro) da probabili- 
dade condicional que a proposição & seja verdadeira, dado o caso de entrada à, À entropia 
relativa para o perceptron de múltiplas camadas é definida por 


: Dur Erd od de | ü- a) 


onde p é a probabilidade a priori da ocorrência do caso @. 
Usando /2 como a função de custo a ser otimizada, derive uma regra de aprendizagem 
para treinar à perceptron de múltiplas camadas, 


O Princípio Infomax 


10,5 Considere dois canais cujas saldas são representadas pelas variáveis aleatórias X e Y. O 
objetivo é maximizar a informação mútua entre Ае Y. Mostre que este objetivo é alcançado 
quando duas condições forem satisfeitas: 
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onde М е N, são as componentes de ruido em Y e F respectivamente. 
(b) Demonstre a interpretação desta informação mútua como uma relação entre sinal- 
mais-ruido para ruido. 


Análise de Componentes Independentes 


10.9 


10.10 


10.11 


10.12 


10.13 


10.14 


Faça uma comparação detalhada entre a análise de componentes principais (discutida no 
Capítulo 8) e a análise de componentes independentes (discutida neste capítulo). 
A análise de componentes independentes pode ser usada como um passo de pré- 
processamento para a análise aproximada de dados antes da detecção e da classificação 
(Comon, 1994). Discuta a propriedade da análise de componentes independentes que pode 
ser explorada para esta aplicação. 
O teorema de Darmois afirma que a soma de variáveis independentes pode ter distribuição 
gaussiana apenas se estas variaveis tiverem elas mesmas distribuições gaussianas (Darmois, 
1953). Utilize a análise de componentes independentes para provar este teorema. 
Na prática, uma implementação algoritmica da análise de componentes independentes 
pode apenas buscar as componentes “tão estatisticamente independente quanto possível”. 
Contraste a solução para o problema da separação cega de fontes usando este algoritmo 
com a solução obtida usando um método de decorrelação. Assuma que a matriz de 
covariäncia do vetor de observação seja não-singular. 
Com referência ao esquema descrito na Fig. 10.9, mostre que minimizar a informação 
mútua entre quaisquer duas componentes da saida do separador Y é equivalente a minimizar 
a divergência de Kullback-Leibler entre a função de densidade de probabilidade 
parametrizada f, (y, W) e a distribuição fatorial correspondente fy, Wi). 
O algoritmo adaptativo para a separação cega de fontes descrito na Eq. (10.104) tem duas 
propriedades importantes: (1) a propriedade equivariante e (2) a propriedade que a matriz 
de peso Wr é mantida náo-singular. ^ propriedade (1) é discutida com algum detalhe na 
parte final da Seção 10.11. Neste problema, consideramos a segunda propriedade. 

Desde que o valor inicial W(0) utilizado no início do algoritmo da Eq. (10.104) satis- 
faça a condição | det(W(0)) | = 0, mostre que 


| det(W(ny) | x 0 para todo л 


Esta é a condição necessária e suficiente para assegurar que Wir) seja nào-singular para 
todo л. 

Neste problema, formulamos a versão por lote do algoritmo de separação cega de fontes 
descrito na Eg. (10.104). Especificamente escrevemos 


AW = UL - Temy jw 


onde 
Hl | [ у, (2) 3=7 HON) 


Ya n ^ e n 


PAD vld} + XN) 
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Máquinas Estocásticas 
e suas Aproximacoes 
Baseadas na Mecánica Estatística 


11.1 INTRODUCAO 


Para a nossa última classe de sistemas de aprendizagem não-supervistonados (sistemas auto-orga- 
nizados), nós nos voltamos para a mecânica estatistica como fonte de idéias. O tema da mecanica 
estatistica abrange o estudo formal das propriedades macroscópicas do equilíbrio de grandes siste- 
mas de elementos que estão sujeitos às leis microscópicas da mecánica. O principal objetivo da 
mecânica estatística é derivar as propriedades termodinámicas de corpos macroscópicos partindo 
do movimento de elementos microscópicos tais como átomos e elétrons (Landau e Lifshitz, 1980; 
Parisi, 1988). O número de graus de liberdade encontrado aqui é enorme, tornando obrigatório o 
uso de métodos probabilísticos. Como no caso da teoria da informação de Shannon, o conceito de 
entropia desempenha um papel vital no estudo da mecânica estatística: quanto mais ordenado for o 
sistema, ou mais concentrada for a sua distribuição de probabilidade, menor será a entropia. Do 
mesmo modo, podemos dizer que quanto mais desordenado for o sistema, ou mais uniforme for a 
sua distribuição de probabilidade, maior sera a entropia. Em 1957, Jaynes mostrou que a entropia 
pode ser usada não apenas como ponto de partida para a formulação da inferéncia estatística como 
descrito no capitulo anterior, mas também para gerar a distribuição de Gibbs que é básica para o 
estudo da mecâmica estatística. 

O interesse na utilização da mecânica estatistica como base para o estudo de redes neurais 
remonta aos trabalhos iniciais de Cragg e Temperley (1954) e Cowan (1968). A máquina de Boltzmann 
(Hinton e Sejnowski, 1983, 1986; Ackley et al., 1985) talvez seja a primeira máquina de aprendiza- 
gem em múltiplas camadas inspirada pela mecânica estatistica. A máquina é assim denominada em 
reconhecimento à equivalência formal entre o trabalho original de Boltzmann sobre a termodinâmica 
estatística e o comportamento dinâmico próprio da rede. Basicamente, a máquina de Boltzmann é 
um dispositivo para modelar a distribuição de densidade de probabilidade de um determinado con- 
junto de dados, do qual as distribuições condicionais para uso em tarefas como complementação de 
padrões e classificação de padrões podem ser derivadas. Infelizmente, o processo de aprendizagem 
da máquina de Boltzmann é dolorosamente lento. Esta deficiência motivou modificações na máqui- 
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Se a probabilidade f for menor que 1, diz-se que o estado i é um estado transiente (Leon-Garcia, 
1994). 

Se a cadeia de Markov começar em um estado recorrente, aquele estado ocorrerá novamente 
um número infinito de vezes, Se iniciar em um estado transiente, aquele estado ocorrerá apenas um 
nümero finito de vezes, o que pode ser explicado como segue. Podemos ver uma nova ocorréncia 
do estado i como uma tentativa de Bernoulli com uma probabilidade de sucesso igual a f. O 
número de retornos é assim uma variável aleatória geométrica com uma média de (1 — f7'). Se f. < 
|, então segue que o número de um número infinito de sucessos é zero. Com isso, um estado 
transiente não pode ocorrer novamente após um determinado número finito de retornos (Leon- 
Garcia, 1994). 

se uma cadeia de Markov tiver alguns estados transientes e alguns estados recorrentes, então 
о processo tenderá a se mover apenas entre os estados recorrentes. 


Cadeias de Markov Irredutiveis 


Dizemos que o estado / de uma cadeia de Markov é acessivel a partir do estado i se houver uma 
sequência finita de transições de i para j com probabilidade positiva. Se os estados i e / forem 
acessiveis entre si, diz-se que os estados í e у da cadeia de Markov se comunicam entre si. Esta 
comunicação é descrita escrevendo-se i € j. Claramente, se o estado i se comunica com o estado ў 
e o estado / se comunica com o estado k, isto é, | € ej €» k, então o estado i se comunica com o 
estado k, isto é, | «2 E. 

Se dois estados de uma cadeia de Markov se comunicam entre si, diz-se que eles pertencem à 
mesma classe. Em geral, os estados de uma cadeia de Markov consistem de uma ou mais classes 
disjuntas. Entretanto, se todos os estados consistirem de uma única classe, diz-se que a cadeia de 
Markov é indecomponivel ou irredutível, Em outras palavras, iniciando em qualquer estado de uma 
cadeia de Markov irredutível, podemos alcançar qualquer outro estado com probabilidade positiva 
Cadeias redutiveis tém pouco interesse prático na maioria das áreas de aplicação, Conseqüentemen- 
te, restringimos a nossa atenção às cadeias irredutiveis, 

Considere uma cadeia de Markov irredutivel que inicia em um estado recorrente i no tempo n 
= 0. Considere que Tik} represente o tempo que decorre entre os retornos (k ~ 1) e k para o estado i. 
О tempo de recorréncia médio do estado i ё definido como o valor esperado de T(k) sobre os 
retornos k, A probabilidade de estado estacionário do estado i, representada por т, é igual ao 
reciproco do tempo de recorrência médio ETT (k)], como mostrado por 


| 
ESE] 


Se E[T (K)] < ee, isto é m, > 0, diz-se que o estado і é um estado recorrente (persistente) positivo. Se 
E[T(K)] = ze, isto é, т = O, diz-se que o estado i é um estado recorrente (persistente) nulo. A 
implicação de т, = 0 ё que a cadeia de Markov eventualmente alcança um ponto em que um retorno 
ao estado i é impossível. À recorrência positiva e a recorrência nula são propriedades de classe 
diferentes, o que significa que uma cadeia de Markov com estados recorrentes positivos e estados 
recorrentes nulos é redutivel. 
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A distribuição de probabilidade In í e é chamada de uma distribuição invariante ou estaci- 
andria. E chamada assim porque persiste para sempre uma vez que tenha se estabelecido. Com base 
no teorema da ergodicidade, podemos afirmar o seguinte: 


* Partindo de uma distribuição inicial arbitrária, as probabilidades de transição de uma cadeia 
de Markov convergirão para uma distribuição estacionária desde que exista uma tal distri- 
buição. 

e A distribuição estacionária da cadeia de Markov é totalmente independente da distribuição 
inicial se a cadeia for ergódica. 


Exemplo 11.1 


Considere uma cadeia de Markov cujo diagrama de transição de estado está representado na Fig. 11.1. A 
cadeia tem dois estados x, ex, А matriz estocástica da cadeia é 


je | = 
ba | = En | чы 


que satisfaz as condições das Eqs. (11.14) e (11.15). 


de [ta 


die b 
rèl= 


FIGURA 11.1 Diagrama de 
transição de estado da cadeia 
de Markov para o exemplo 11.1 


tale 


Suponha que a condição inicial seja 


eld i 
6 6 


Da Eq. (11.21) constatamos que o vetor da distribuição de estado no tempo п = | é 


ж! = yip 


i | == | us 


Elevando a matriz estocástica P à potência n = 2, 3, 4, temos 
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Resolvendo estas equações para л, T. e My obtemos 


п, = 0,3953 
к, 20,1395 
л, = 0,4652 


А cadeia de Markov dada é ergódica com sua distribuição estacionária definida por m., m, e mt, 


Classificação de Estados * 


Com base no material apresentado aqui, podemos desenvolver um resumo das classes às quais um 
estado pode pertencer como mostrado na Fig, 11,3 (Feller, 1950; Leon-Garcia, 1994). Esta figura 
também inclui o comportamento a longo prazo associado do estado. 


Estado 
" di і Е. 
Tramsiente Recorrente 
m ü » di 4 
Recorrente positivo Recorrente nulo 
mi mi 
P d | | 
FIGURA 11.3 Classificação Aperiódico Periódico 
dos estados de uma cadeia de lim p.d =m lim p, = de quando 
Markov e seu comportamento a quando #1 — = п — e onde dé um 
longo prazo associado inteiro major que | 


Princípio do Balanço Detalhado 


As Equações (11.25) e (11.26) meramente enfatizam o fato de que os números Л, são probabilida- 
des. À Equação (11.27) é a equação crítica porque também deve ser satisfeita para que a cadeia de 
Markov seja irredutivel e, portanto, para que exista uma distribuição estacionária. Esta última equa- 
ção é uma reformulação do princípio do balanço detalhado que surge na cinética das reações de 
primeira ordem. O princípio do balanço detalhado afirma que, em equilibrio térmico, a taxa de 
ocorrência de qualquer transição é igual à taxa correspondente de ocorrência da transição inversa, 
como mostrado por (Reif, 1965): 


KP, TP, (11.28) 


Para derivar a relação da Eq. (11.27), podemos manipular o somatório no lado direito desta equação 
como верце: 
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Na segunda linha desta expressão, utilizamos o principio do balanço detalhado, е na última linha 
usamos o fato de que as probabilidades de transição de uma cadeia de Markov satisfazem a condi- 
ção (veja a Eq. (11.15) com os papéis de i e / trocados): 


K 
У р, =1 рага todo j 


Note que o princípio do balanço detalhado implica que a distribuição ir seja uma distribuição 
estacionária. 


11.4 O ALGORITMO METROPOLIS 


Agora que compreendemos a composição de uma cadeia de Markov, vamos usá-la para formular 
um algoritmo estocástico para simular a evolução de um sistema físico para o equilibrio térmico. O 
algoritmo é chamado de algoritmo Metropolis (Metropolis et al, 1953). Ele é um método de Monte 
Cárlo modificado, introduzido nos primórdios da ciência da computação para a simulação estocástica 
de uma coleção de átomos em equilibrio a uma dada temperatura. 

Suponha que a variável aleatória À representando uma cadeia de Markov arbitrária esteja no 
estado x, no tempo т. Geramos aleatoriamente um novo estado x , representando uma realização de 
uma outra variável aleatória Y. Assume-se que a geração deste novo estado satisfaz a condição de 
simetria: 


Ar = х] Аах) = AF mx] A =x) 

Considere que AF represente a diferença de energia resultante da transição do sistema do estado X, 
=x, para o estado Y =x. Sea diferença de energia AE for negativa, a transição leva a um estado com 
energia mais baixa e a transição é aceita. O novo estado é então aceito como ponto inicial para o 
novo passo do algoritmo, isto é, fazemos X. | 7 Р. Se, por outro lado, a diferença de energia AE for 
positiva, o algoritmo procede de uma maneira probabilistica naquele ponto, Primeiro, selecionamos 
um número aleatório & uniformemente distribuido no intervalo [0, 1]. Se É = exp(-AE/T), onde Té 
a temperatura de operação, a transição é aceita e fazemos X = Y. Caso contrário, a transição é 
rejeitada e fazemos X , A: isto é, a configuração antiga é reutilizada para o próximo passo do 
algoritmo. 


Escolha das Probabilidades de Transição 


Considere que a cadeia de Markov arbitrária tenha probabilidades de transição a priori representa- 
das por T.. que satisfazem trés condições: 
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1. Nüo-negatividade: 
2 O para todo (i, j) 
2. Normalização: 
Y 1,=1 para todo j 
| 
3. Simetria: 


t=T, para todo (i, /) 


Considere que x, represente a probabilidade de estado estacionário que a cadeia de Markov esteja 
no estado Xa i= 1, 2,..., К. Podemos então usar os T, simétricos са razão de distribuições de proba- 
bilidade ләл, a ser definida, para formular o conjunto desejado de probabilidades de transição 
como (Beckerman, 1997}: 





„= | | (11.29) 


T para =>] 





Para assegurar que as probabilidades de transição sejam normalizadas para a unidade, introduzimos 
esta definição adicional para a probabilidade de não-transição: 


py =1,+ zel. z 


pul П 


=1-Ya,t, 


IT 


(11.30) 


onde @ é a probabilidade de movimentação definida por 


п — mim къ; п 
v А 


А única exigência importante ё como escolher a razão m/m. Para satisfazer esta exigência, escolhe- 
mos a distribuição de probabilidade para a qual desejamos que a cadeia de Markov convirja como 
sendo uma distribuição de Gibbs, como mostrado por 
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complementação de padrões. Especificamente, quando um vetor portador de informação está preso 
a um subconjunto de neurônios visíveis, a rede realiza a complementação sobre os neurônios visi- 
veis restantes, desde que ela tenha aprendido adequadamente a distribuição de treinamento (Hinton, 
1989). 

O objetivo principal da aprendizagem de Boltzmann é produzir uma rede neural que modele 
corretamente padrões de entrada de acordo com uma distribuição de Boltzmann. Aplicando esta 
forma de aprendizagem, são feitas duas suposições: 


+ Cada vetor (padrão) de entrada do ambiente persiste tempo suficiente para permitir que a 
rede alcance o equilibrio térmico. 

+ Não há estrutura na ordem sequencial na qual os vetores do ambiente estão presos às unida- 
des visíveis da rede. 


Diz-se que um conjunto particular de pesos sinápticos constitui um modelo perfeito da estrutura do 
ambiente se ele levar exatamente à mesma distribuição de probabilidade dos estados das unidades 
visiveis (quando a rede está funcionando livremente) que quando estas unidades estão presas aos 
vetores de entrada do ambiente. Em geral, a menos que o número de unidades ocultas seja 
exponencialmente grande comparado com o número de unidades visíveis, é impossivel atingir este 
modelo perfeito. Se, contudo, o ambiente tiver uma estrutura regular, e a rede utilizar suas unidades 
ocultas para capturar estas regularidades, ela pode alcançar um bom casamento com o ambiente 
com um número aceitável de unidades ocultas. 


Amostragem de Gibbs e Recozimento Simulado para a Máquina de Boltzmann 


Considere que x represente o vetor de estado da máquina de Boltzmann, com sua componente x, 
representando o estado do neurônio i. O estado x representa uma realização do vetor aleatório X. A 
conexão sináptica do neurônio é para o neurônio / é representada por Wa com 


we W 
M 


їй 


para todo (E, /) (11,37) 


w,=0 para todo i (11.38) 


А Equação (11.37) descreve a simetria e a Eq. (11.38) enfatiza a ausência de auto-realimentacio. O 
uso de um bias é permitido utilizando-se à vetor O de um nó fictício mantido a +1 е conectando-o 
ao neurônio j para todo j. 

Por analogia com a termodinámica, a energia da máquina de Boltzmann é definida por’ 


| | 
Еа) hue, (11.39) 


ii 


Invocando a distribuição de Gibbs da Eg. (11.5), podemos definir a probabilidade de que a rede 
(assumida estar em equilíbrio à temperatura 7) está no estado x como segue: 
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Considere que Y represente o conjunto de exemplos de treinamento retirados da distribuição 
de probabilidade de interesse. Assume-se que os exemplos são todos binários. E permitida a repeti- 
ção de exemplos de treinamento na proporção da frequência conhecida de sua ocorrência. Conside- 
re que um subconjunto do vetor de estado x, digamos х, represente os neurônios visíveis. A parte 
restante do vetor de estado x, digamos x,, representa o estado dos neurônios ocultos. Os vetores de 
estado, x, X, € x, são realizações dos vetores aleatórios X, X, e X,, respectivamente. Há duas fases 
para a operação da máquina de Boltzmann: 


+ Fase positiva. Nesta fase, a rede opera na sua condição presa (i.e, sob a influência do 
conjunto de treinamento T). 

+ Fase negativa. Nesta segunda fase, permite-se que a rede opere livremente, e portanto sem 
entradas do ambiente. 


Dado o vetor de peso sináptico w para toda a rede, a probabilidade de que os neurônios visíveis 
estejam no estado x, é P(X, = x ). Considerando os diversos valores possíveis de x, contidos no 
conjunto de treinamento Y, assumidos serem estatisticamente independentes, a distribuição de pro- 
habilidade global é a distribuição fatorial П. ‚iX, = x,). Para formular а função logaritmo da 
verossimilhança L(w), tome o logaritmo desta distribuição fatorial e trate w como o vetor de 
parâmetros desconhecido. Podemos assim Escrever 


L(w)z log П P(X, = x.) 


Чы 


(11.45) 
= Y logP(X, 2 x.) 


Para formular a expressão para a probabilidade marginal P(X, = x,) em termos da função energia 
E(x), utilizamos o seguinte: 


e A probabilidade P(X = x) é igual a zexp- EQ / T) da Eq. (11.40). 


e Por definição, o vetor de estado x é a combinação conjunta de x, relativo aos neurônios 
visiveis € х, relativo aos neurônios ocultos, Assim, a probabilidade de encontrar os neurônios 
visíveis no estado x, com qualquer x, é dada por 


I E 
PA =1,)= 80-42) (11.46) 
Ep 


onde o vetor aleatório X, é um subconjunto de X. A função de partição Z é ela mesma definida por 
(veja a Eq. (11.6)): 





E 
z-Yew| œ) (1147) 


Assim, substituindo as Eqs. (11.46) e (11.47) em (11.45), obtemos a expressão desejada para а 
função logaritmo da verossimilhança: 
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n=E (11.54) 


A regra da subida do gradiente da Eq. (11.53) é chamada de regra de aprendizagem de Boltzmann. 
A aprendizagem descrita aqui é realizada em lote; ou seja, as modificações dos pesos sinápticos são 
feitas após a apresentação do conjunto inteiro de exemplos de treinamento, 

De acordo com esta regra de aprendizagem, os pesos sinápticos de uma máquina de Boltzmann 
são ajustados utilizando-se apenas observações disponiveis localmente sob duas diferentes condi- 
ções: (1) operando presa e (2) operando livremente. Esta caracteristica importante da aprendizagem 
de Boltzmann simplifica enormemente a arquitetura da rede, em especial quando se lida com redes 
grandes. Uma outra caracteristica útil da aprendizagem de Boltzmann, que pode parecer uma sur- 
presa, é que a regra para ajustar o peso sináptico do neurônio é рага o neurônio j é independente do 
fato de estes dois neurönios serem ambos visíveis, ambos ocultos, ou um visivel e o outro oculto. 
Todas estas caracteristicas da aprendizagem de Boltzmann resultam de uma análise fundamental de 
Hinton e Sejnowski (1983, 1986), que vincula o modelo matemático abstrato da máquina de 
Boltzmann às redes neurais usando uma combinação de dois fatores: 


« A distribuição de Gibbs para descrever o quão estocástico é um neurônio. 
» А função de energia bascada na fisica estatística, dada pela Eq. (11.39), para definir a distri- 


buição de Gibbs, 


Do ponto de vista da aprendizagem, os dois termos que constituem a regra de aprendizagem de 
Boltzmann da Eq. (11.53) têm significados opostos. Podemos ver o primeiro termo, correspondente 
à condição presa da rede, como essencialmente uma regra de aprendizagem hebbiana; e ver o se- 
gundo termo, correspondendo à condição de operação livre da rede, como um termo de 
"desaprendizagem" ou esquecimento, De fato, à regra de aprendizagem de Boltzmann representa 
uma generalização da regra de esquecimento repetido e reaprendizagem descrita por Póppel e Krey 
(1987) para o caso de redes simétricas sem neurônios ocultos, 

É também interessante notar que, como o algoritmo de aprendizagem da máquina de Boltzmann 
requer que os neurônios ocultos reconheçam a diferença entre atividades estimuladas e atividades 
operando livremente, e desde que haja uma rede (oculta) externa que sinalize para os neurônios 
ocultos que a máquina está sendo estimulada, temos uma forma primitiva de um mecanismo de 
atenção (Cowan e Sharp, 1988). 


Necessidade da Fase Negativa e suas Implicações 


O uso combinado de uma fase positiva e de uma fase negativa estabiliza a distribuição de pesos 
sinápticos na máquina de Boltzmann. Esta necessidade pode ser justificada de outro modo. Intuiti- 
vamente, podemos dizer que a necessidade de uma fase negativa bem como de uma fase positiva na 
aprendizagem de Boltzmann surge devido à presença da função de partição, Z, na expressão para a 
probabilidade de um vetor de estado de um neurônio. A implicação desta afirmação é que a direção 
da descida mais ingreme no espaço de energia não é a mesma que a direção da subida mais ingreme 
no espaço de probabilidade. De fato, a fase negativa no procedimento de aprendizagem é necessária 
para levar em consideração estas discrepâncias (Neal, 1992). 


O uso de uma fase negativa na aprendizagem de Boltzmann tem duas grandes desvanta- 
gens: 
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pat) = Ap Ayu A, at (11.55) 
Em outras palavras, pa(£) é o menor subconjunto do vetor aleatório X para o qual temos 
PA = ХХ ех, х, 7 POS = хура) (11.56) 


Uma virtude importante das redes de crença sigmóide é a sua habilidade de exibir claramente as 
dependências condicionais do modelo probabilístico próprio dos dados de entrada. Em particular, a 
probabilidade de que o i-ésimo neurônio seja ativado é definida pela função sigmóide (veja a Ea. 
(11.43)) 


Р(Х, = x |pa X.) ol Lua) (11.57) 


onde w, é o peso sináptico do neurônio i para o neurônio j, como mostrado na Fig. 11.6. Ou seja, a 
probabilidade condicional P(X, ^ x/pa(X)) depende de pa(X;) unicamente através de uma soma de 
entradas ponderadas. Assim, à Eq. (11.57) fornece a base para à propagação de crenças através da 
rede. 

Realizando-se os cálculos de probabilidade da rede de crença sigmóide, notam-se os dois 
pontos seguintes: 


1. w,= 0 para todo X nào pertencente a pa(X ) 
2. we ( para todo i >} 


O primeiro ponto segue da definicáo dos pais. O segundo ponto segue do fato de que uma rede de 
crença sigmóide é um grafo acíclico orientado. 

Como o nome implica, as redes de crença sigmóide pertencem à classe geral das redes de 
crença” estudadas extensivamente na literatura (Pearl, 1988). A operação estocástica das redes de 
crença sigmóide é algo mais complexa que a máquina de Boltzmann. Apesar disso, elas se adaptam 
ao uso de aprendizagem por subida do gradiente no espaço de probabilidade, baseado na informa- 
ção disponível localmente, 


Aprendizagem em Redes de Crença Sigmóide 


Considere que Y represente um conjunto de exemplos retirados da distribuição de probabilidade de 
interesse. Assume-se que cada exemplo seja binário, representando certos atributos. É permitida a 
repetição de exemplos de treinamento, na proporção da frequência de ocorrência de uma combina- 


ção particular de atributos. Para modelar a distribuição da qual T é retirado, procedemos como 
segue: 


1. Decide-se por um tamanho do vetor de estado, x, para a rede. 

2. Seleciona-se um subconjunto do vetor de estado, digamos x , para representar os atributos dos 
casos de treinamento; ou seja, X representa o vetor de estado dos neurônios visíveis (1.6., os nós 
de evidências). 
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Quando a temperatura Fé reduzida no percurso através do roteiro de recozimento, o sistema 
sofre uma sequência de transições de fase, que consiste de divisões naturais de agrupamentos nas 
quais o modelo de agrupamento cresce em tamanho (i.e, número de agrupamentos) (Rose et al., 
1990; Rose, 1991). Este fenômeno é significativo pelas razões a seguir: 


Fornece uma ferramenta útil para controlar o tamanho do modelo de agrupamento. 
Como no recozimento fisico ordinário, às transições de fase são os pontos criticos do pro- 
cesso de recozimento deterministico onde se deve ter cuidado com o recozimento. 

e Os pontos criticos são caleulaveis, fornecendo com isso informação que pode ser usada 
para acelerar o algoritmo no intervalo entre transições de fase. 

* Pode-se identificar um tamanho de modelo ótimo acoplando um procedimento de validação 


à sequência de soluções produzidas em várias fases, que representam soluções de tamanhos 
de modelo crescentes. 


Exemplo 11.4 


As Figuras 11.10 е 11.11 ilustram a evolução da solução de agrupamento através de recozimento deterministico 
em várias fases conforme a temperatura T é reduzida ou a temperatura reciproca, B = LT, é aumentada (Rose 
1991). O conjunto de dados utilizado para gerar estas figuras é uma mistura de seis distribuições gaussianas 
cujos centros estão marcados com ^X". Os centros dos agrupamentos calculados estão marcados com “o”. 
Como as soluções de agrupamento a temperaturas diferentes de zero não são duras, esta partição aleatória é 
mostrada por contornos de igual probabilidade — por exemplo, probabilidade 1/3 de pertencer a um agrupa- 
mento particular. Este processo inicia com um agrupamento natural contendo o conjunto de treinamento (Fig. 
11.10а). Na primeira transição de fase, ele se divide em dois agrupamentos (Fig. 11.106) e então passa por 
uma sequência de transições de fase até alcançar o conjunto "natural" de seis agrupamentos, A próxima tran- 


FIGURA 11.10 O processo de agrupamento 
em várias fasas. As linhas são contornos 
aquiprováveis, p= 1/2 em (b) e pa 1/3 nas 
Outros: 

la) 1 agrupamento (B = 0) 

(b) 2 agrupamentos (B = 0,0049), 

(c) З agrupamentos (B = 0,0058), 

(d) 4 agrupamentos (B = 0,0100), 

(e) 5 agrupamentos (B = 0,0156), 

if) 6 agrupamentos (B = 0,0347) e 

ig} 18 agrupamentos (B = 0,0605) 
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FIGURA 11.10 (continuação) 


sição de fase resulta em uma “explosão” quando todos os agrupamentos se dividem. À Figura 11.11 apresenta 
o diagrama de fase, que mostra o comportamento da distorção média durante todo o processo de recozimento 
e o número de agrupamentos naturais em cada fase, Nesta figura, a distorção média (normalizada em relação 
do seu valor minimo) é traçada em função do reciproco da temperatura, ou seja В (normalizado em relação ao 
seu valor minimo). Ambos os eixos são rotulados nas suas formas logaritmicas relativas. 

LI 


Log( D» /«Deomin) 


FIGURA 11.11 Diagrama de 
fase para o exemplo da mistura 
de gaussianas. O número de 
i = 19 agrupamentos efetivos é mostra- 
Log[B/Bmin] do para cada fase 
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Embora enfatizamos neste capítulo o uso de técnicas de otimização e máquinas estocásticas 
para resolver tarefas de aprendizagem não-supervisionada, elas também podem ser usadas para 
tarefas de aprendizagem supervisionada, se assim for desejado. 


NOTAS E REFERÊNCIAS 


1. © termo “distribuição canônica” como uma descrição da Eq. (11.3) foi cunhado por J. 
Willard Gibbs (1902). Na página 33 da Parte Um (Elementary Principles im Statistical 
Mechanics) desta coletânea de trabalhos, ele escreve 


“A distribuição representada por... 
P- ex T | 
H 

onde He y são constantes e JT é positivo, parece representar o caso mais simples 
concebivel, pois ela tem a propriedade de que, quando o sistema consiste de partes 
com energias separadas, as leis da distribuição em fase das partes separadas são da 
mesma natureza — uma propriedade que simplifica enormemente a discussão e que 
representa a fundamentação das relações extremamente importantes da 
termodinâmica... 

Quando um ensemble de sistemas é distribuido em fase da maneira descrita, i.e., 
quando o indice de probabilidade (Р) é uma função linear da energia (є }, devemos 


dizer que o ensemble tem uma distribuição canônico e chamar o divisor da energia 
(T) de módulo da distribuição ” 





Na literatura de fisica, a Eq. (11.3) é normalmente referida como a distribuição canônica 
(Reif, 1965) ou distribuição de Gibbs (Landau e Lifschitz, 1980). Na literatura de redes 
neurais, ela é referida como a distribuição de Gibbs, distribuição de Boltzmann e a distri- 
buição de Boltzmann-Gibbs, 

2. Aidéiade introduzir a temperatura e o recozimento simulado em problemas de otimização 
combinatória deve-se a Kirkpatrick, Gelatt e Vacchi (1983) e independentemente a Cerny 
(1985). 

Em um contexto fisico, recozimento é um processo delicado por natureza. Em seu 
artigo de 1983, Kirkpatrick et al. discutem a noção de “fundir” um sólido, que envolve 
elevar a temperatura à um valor máximo no qual todas as particulas do sólido se arranjem 
“aleatoriamente” na fase liquida. Então, a temperatura é reduzida, permitindo que todas as 
particulas se arranjem no estado fundamental de baixa energia de uma estrutura cristalina 
corespondente. Se o resfriamento for rápido demais — isto é, não se permite que o sólido 
tenha tempo suficiente para alcancar o equilibrio térmico a cada valor de temperatura — o 
eristal resultante terá muitos defeitos, ou a substáncia pode formar um vidro sem uma 
ordem cristalina é apenas estruturas metaestáveis localmente ótimas. 

A noção de “fusão” pode ser o caminho correto para se raciocinar sobre vidros е 
talvez sobre problemas de otimização combinatória em um contexto computacional cor- 
respondente, Entretanto, ele é enganoso quando se discute muitos outros domínios de apli- 
cação (Beckermann, 1997). Em processamento de imagens, por exemplo, se elevarmos a 
“temperatura” de modo que as partículas se arranjem aleatoriamente, perdemos a imagem 

ela se torna uniformemente cinza. Em um sentido metalúrgico correspondente, quando 
realizamos o recozimento do ferro ou do cobre, devemos manter a temperatura do 
recozimento abaixo do ponto de fusão; caso contrário, arruinamos a amostra. 

Hà vários parámetros importantes que governam o recozimento metalúrgico: 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


Hidden page 


648 


Renes МЕСЕЛЕ 


11.10 


11.11 


Invocando estas duas suposições, mostre que 


PRACH tq -m,)2U 


(e) Dado que t, #0, use o resultado da parte (a) do problema para mostrar que 


| 


Ty 7 іт) 


(dy Finalmente, faça uma troca de variáveis: 
E =-—Plogr, + T* 


ande Te Ге são constantes arbitrárias. Com 1550, derive os seguintes resultados: 


| E, 
(i) л, - e| +) 
ES 
(ii) z-Yes 2) 


UD 2,7 ех АЕР) 


onde DE = E-E. 
(e) Quais as Conclusões que você pode tirar destes resultados? 
Na Seção 11.7, utilizamos a máxima verossimilhança como critério para derivar a regra de 
aprendizagem de Boltzmann, descrita na Eq. (11.53). Neste problema, revisitamos esta 
regra de aprendizagem usando um outro critério. Da discussão apresentada no Capítulo 
10, a divergência de Kullback-Leibler entre duas distribuições de probabilidade p; e m, ё 


definida por 
TIRE. 
D ., ш * Pa of | 
i a Pa 


onde o somatório é sobre todos os estados possíveis a. A probabilidade р” representa a 
probabilidade de que as neurônios visíveis estejam no estado c quando a rede está na sua 
condição presa (positiva), e a probabilidade p. representa a probabilidade de que os mes- 
mos neurônios estejam no estado @ quando a rede está na sua condição de operação livre 
(negativa). Usando D. derive novamente a regra de aprendizagem de Boltzmann. 
Considere uma máquina de Boltzmann cujos neurönios visíveis são divididos em neurônios 
de entrada e neurônios de saída. Os estados destes neurônios são representados por à c Y, 
respectivamente. O estado dos neurônios ocultos é representado por В. À divergência de 
Kullbach-Leibler para esta máquina é definida por 


"ERES dH 


onde p; é a probabilidade do estado à sobre os neurônios de entrada; P. é a probabili- 
dade condicional de que os neurónios de saida estejam presos ao estado a dado um estado 
de entrada at; e Pra € a probabilidade condicional de que os neurônios de saida estejam em 
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equilíbrio térmico no estado y, dado que apenas os neurônios de entrada estejam presos ao 

estado à. Como anteriormente, os indices superiores mais e menos representam as condi- 

ções positiva (presa) e negativa (operando livre), respectivamente. 

(a) Derive a fórmula de D ., рага uma máquina de Boltzmann que incluí neurônios 
de entrada, ocultos e de saída. 

(b) Mostre que a regra de aprendizagem de Boltzmann para ajustar o peso sináptico ы, 
nesta configuração de rede pode ainda ser expressa na mesma forma como descrito na 
Eq. (11.53), com novas interpretações para as correlações p; e pz. 


Redes de Crenca Sigmóide 


11.12 Resuma as similaridades e diferenças entre a máquina de Boltzmann e a rede de crença 
sigmóide, 

11.13 No Problema 11.9, demonstramos que a máquina de Boltzmann é descrita por um modelo 
de cadeia de Markov de dois passos. Uma rede de crença sigmóide admite um modelo de 
cadeia de Markov? Justifique a sua resposta. 

11.14 Considere que w, represente o peso sináptico do neurônio i para o neurônio em uma rede 
de crença sigmóide que utiliza +1 para o estado ligado e —1 para o estado desligado. Con- 
sidere que 10, represente o peso sináptico correspondente de uma rede de crença sigmóide 
que utiliza | para o estado ligado de um neurônio е 0 para o estado desligado. Mostre que 
u, pode ser convertido em uu, utilizando a transformação: 


É _ e, n 1 
ME рага йі у 


am O, LET 


À aei 
A última linha é relativa ao bias aplicado ao neurônio j. 
11.15 Em uma rede de crença sigmóide, identificamos a probabilidade Р(Х,= X,| X, = X.) como 
uma distribuição de Gibbs, c a probabilidade P(X, =x) como a função de partição corres- 
pondente. Justifique a validade destes dois modelos. 


А Máquina de Helmholtz 


11.16 А máquina de Helmholtz não tem realimentação em ambos os modelos, de reconhecimen- 
to e de geração. O que poderia acontecer com a operação desta rede se fosse permitida a 
utilização de realimentação em um destes dois modelos? 


Máquina de Boltzmann Deterministica 


11.17 A máquina de Boltzmann realiza descida do gradiente (no espaço de pesos) sobre o espaço 
de probabilidades, como discutido no Problema 11.10. Sobre qual função a máquina de 
Boltzmann determinística realiza a descida de gradiente? Você pode se referir a Hinton 
(1989) para uma discussão desta questão. 

11.18 Considere uma rede recorrente que é assimétrica com w, #1, Mostre que o algoritmo de 
aprendizagem de Boltzmann determinístico torna a rede automaticamente simétrica, des- 
de que após cada atualização de peso, cada peso decaia em direção a zero em uma pequena 
quantidade proporcional à sua magnitude (Hinton, 1989). 


Rede de Crença Sigmóide Deterministica 


11.19 Mostre que a diferença entre as expressões nos lados esquerdo e direito da Eq. (11.77) é 
igual à divergência de Kullback-Leibler entre as distribuições Q(X,7 xJ X, 7x )e Р(Х, 
-Xx|X =x). 
В а 3 
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CAPÍTULO 12 


Programação Neurodinâmica 


12.1 INTRODUÇÃO 


No Capítulo 2, identificamos dois paradigmas principais de aprendizagem: a aprendizagem com 
um professor e a aprendizagem sem professor. O paradigma de aprendizagem sem professor é 
subdividido em aprendizagem auto-organizada (não-supervisionada) e aprendizagem por reforço. 
Nos Capítulos de 4 a 7, são cobertas diferentes formas de aprendizagem com um professor ou 
aprendizagem supervisionada, e nos Capítulos de & a 11 são discutidas diferentes formas de apren- 
dizagem não-supervisionada. Neste capítulo, discutimos a aprendizagem por reforço. 

A aprendizagem supervisionada é um problema “cognitivo” de aprendizagem realizado sob a 
tutela de um professor: ela dispõe de um conjunto adequado de exemplos de entrada-saida que são 
representativos do ambiente operacional. A aprendizagem por reforço, ao contrário, é um problema 
de aprendizagem baseado em “comportamento”: é realizada através da interação entre o sistema de 
aprendizagem e 0 seu ambiente, dentro do qual o sistema procura alcançar um objetivo especifico 
apesar da presença de incertezas (Barto et al., 1983; Sutton e Barto, 1998). O fato de que esta 
interação é realizada sem um professor toma a aprendizagem por reforço particularmente atrativa 
para situações dinâmicas em que é custoso ou dificil (se não impossível) reunir um conjunto 
satisfatório de exemplos de entrada-saida. 

Hà duas abordagens рага o estudo da aprendizagem por reforço, resumidas como segue: 


1. A abordagem classica, na qual a aprendizagem acontece através de um processo de punição e 
recompensa com o objetivo de alcançar um comportamento altamente qualificado. 

2. À abordagem moderna, que se fundamenta em uma técnica matemática conhecida como pro- 
gramação dinâmica para decidir sobre o curso de ação considerando estágios futuros possíveis 
sem realmente experimentá-los; a ênfase aqui está no planejamento. 


A nossa discussão enfoca a aprendizagem por reforço moderna, 
A programação dinâmica” é uma técnica que trata de situações em que as decisões são toma- 
das em estágios, com o resultado de cada decisão sendo previsível até certo ponto antes que a 
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próxima decisão seja tomada. Um aspecto-chave destas situações é que nenhuma decisão pode ser 
tomada isoladamente. Em vez disso, deve-se ponderar o desejo de um baixo custo no presente em 
relação a altos custos indesejáveis no futuro. Este é um problema de atribuição de crédito porque 
deve-se atribuir crédito ou culpa a cada decisão de um conjunto de decisões interativas. Para o 
planejamento ótimo, é necessário se ter um compromisso eficiente entre os custos imediato e fatu- 
ro. Tal compromisso é realizado de fato pelo formalismo da programação dinâmica. Em particular, 
a programação dinâmica aborda a questão: como um sistema pode aprender a melhorar o seu de- 
sempenho a longo prazo quando isto pode requerer o sacrificio do desempenho a curto prazo? 

Seguindo a terminologia da Bertsekas e Tsitsiklis (1996), nós nos referimos à abordagem 
moderna de aprendizagem por reforço como programação neurodinámica. Fazemos isso principal- 
mente por duas razões: 


e A fundamentação teórica é fornecida pela programação dinâmica. 
* А capacidade de aprendizagem é fornecida pelas redes neurais. 


Podemos definir sucintamente a programação neurodinâmica como (Bertsekas e Tsitsiklis, 1996): 


A programação neurodinámica permite que um sistema aprenda a tomar boas decisões observando o 
seu próprio comportamento e a melhorar as suas ações através de reforço, utilizando um mecanismo 
incorporado. 


A observação do comportamento é realizada fora do tempo de execução (off-line) através da técnica 
de simulação de Monte Carlo, A melhoria das ações através de reforço é realizada através do uso de 
um esquema iterativo de otimização. 


Organização do Capítulo 


A programação dinâmica tem duas caracteristicas principais: um sistema dinâmico subjacente de 
tempo discreto e uma função de custo que é aditiva em relação ao tempo. Estas duas características 
são discutidas na Seção 12.2. Isto é seguido por uma formulação da equação da otimização de 
Bellman na Seção 12.3, que desempenha um papel importante na programação dinâmica. Nas Seções 
12.4 e 12,5, discutimos dois métodos diferentes para calcular uma politica ótima para programação 
dinâmica, ou seja, iteração de política e iteração de valor. 

Na Seção 12.6, apresentamos uma visão geral das questões envolvidas na programação 
neurodinámica. Esta visão geral leva à discussão da iteração aproximada de politica e da aprendi- 
zagem Q, o que a torna adequada ao uso de redes neurais para aproximação de funções. Estes dois 
algoritmos são discutidos nas Seções 12.7 e 12.8, respectivamente. A Seção 12.9 apresenta um 
experimento computacional sobre o uso da aprendizagem C. 

O capitulo conclui com algumas considerações finais na Seção 12.10. 


12.2 PROCESSO DE DECISÃO MARKOVIANO 


Considere um sistema de aprendizagem ou agente que interage com seu ambiente do modo ilustra- 
do na Fig. 12.1. O sistema opera de acordo com um processo de decisão markoviano de tempo 
discreto finito que é caracterizado como segue: 
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Sistema de 
aprendizagem | 


Custo 
FIGURA 12.1 Diagrama em blocos 
Ambiente de um sistema de aprendizagem 
interagindo com à seu ambiente 


* Ü ambiente evolui probabilisticamente ocupando um conjunto finito de estados discretos. 
Note, entretanto, que o estado ndo contém estatísticas passadas, embora estas estatísticas 
pudessem ser úteis para o sistema de aprendizagem, 

+ Para cada estado do ambiente há um conjunto finito de ações possíveis que podem ser 
realizadas pelo sistema de aprendizagem. 

Toda vez que o sistema de aprendizagem realiza uma ação, ele incorre em um certo custo. 
A observação dos estados, a realização de ações e a Incidência de custos ocorrem em tempo 
discreto. 





No contexto da nossa presente discussão, o estado do ambiente é definido como um resumo da 
experiência passada total do sistema de aprendizagem ganha a partir da sua interação com o 
ambiente, de modo que a informação necessaria para o sistema de aprendizagem predizer o com- 
portamento futuro do ambiente está contido neste resumo. A variável aleatória representando o 
estado no passo de tempo n é Х e o estado real no passo de tempo п é representado por xinh. O 
conjunto finito de estados é representado por X. Um aspecto surpreendente da programação diná- 
mica é que a sua aplicabilidade depende muito pouco da natureza do estado. Podemos, portanto, 
proceder sem fazermos qualquer suposição sobre a estrutura do espaço de estados. 

Para o estado i, por exemplo, o conjunto disponível de ações (Le., as entradas aplicadas ao 
ambiente pelo sistema de aprendizagem) é representado por зї = fa +, onde o segundo indice X na 
ação a, realizada pelo sistema de aprendizagem meramente indica a disponibilidade de mais que 
uma ação possível quando o ambiente está no estado i. A transição do ambiente do estado / para o 
novo estado f, por exemplo, devido à ação a, é de natureza probabilistica, Entretanto, o mais impor- 
tante é que a probabilidade de transição do estado i para o estado j depende inteiramente do estado 
corrente i e da ação correspondente а. Esta ё a propriedade de Markov, que é discutida no Capitu- 
lo 11. Esta propriedade é crucial porque significa que o estado corrente do ambiente fornece a 
informação necessária para o sistema de aprendizagem decidir qual ação realizar. 

A variável aleatória representando a ação realizada pelo sistema de aprendizagem no passo de 
tempo л ё representada por 4. Considere que p (a) represente a probabilidade de transição do 
estado i para o estado y devido à ação realizada no passo de tempo a, onde A, = q, Em virtude da 
propriedade de Markov, temos 


pid= P(X, = FIA, m i A, ma) (12.1) 


A probabilidade de transição p (a) satisfaz as duas condições seguintes que são impostas pela teoria 
das probabilidades. 


1. д.а) 2 0 para todo je у (12.2) 
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2. Y p,(a) 21 para todo i (12.3) 


Para um dado número de estados e probabilidades de transição, a sequência de estados do ambiente 
resultante das ações realizadas pelo sistema de aprendizagem sobre o tempo forma uma cadeia de 
Markov. As cadeias de Markov sáo discutidas no Capitulo 11. 

A cada transição de um estado para outro, o sistema de aprendizagem incorre em um custo, 
Assim, na n-ésima transição do estado i para o estado / sob a ação a, O sistema de aprendizagem 
incorre em um custo representado por Y"g(i, a. A, onde gi...) é uma função predeterminada, e y é 
um escalar com 0 S y< | chamado de fator de desconto, Ajustando Y, somos capazes de controlar o 
grau com que o sistema de aprendizagem está preocupado com as conseqüéncias a longo prazo de 
suas próprias ações em relação às consequências a curto prazo destas ações. No limite, quando y= 
0, o sistema é miope no sentido de que está apenas preocupado com as conseqüéncias imediatas de 
suas ações. No que se segue, ignoraremos este valor limite, ou seja, restringiremos a discussão a O 
<< 1. Quando y se aproxima de 1, os custos futuros se tornam mais importantes na determinação 
das ações Ótimas. 

O nosso interesse está na formulação de uma política, definida como um mapeamento de 
estados para ações. Em outras palavras, uma política é uma regra usada pelo sistema de aprendiza- 
gem para decidir o que fazer, dado o conhecimento do estado atual do ambiente. A política é repre- 
sentada por 


Л = {Hy Н.» Hy] (12,4) 


onde u, é uma função que mapeia o estado À = é em uma ação 4 = a no passo de tempo n = 0, 1, 
2..... Este mapeamento é tal que 


u (je si, para todos os estados ¡e X 


onde si, representa o conjunto de todas as ações possiveis realizadas pelo sistema de aprendizagem 
no estado i. Tais políticas são denominadas admissíveis. 

Uma politica pode ser não-estacionária ou estacionária, Uma política mao-estacionária é 
variável no tempo, como indicado na Eq. (12.4). Entretanto, quando a política é independente do 
tempo, ou seja, 


T= ill, LL I... 


diz-se que a política ё estacionária. Em outras palavras, uma politica estacionária especifica 
exatamente a mesma ação cada vez que um estado particular é visitado. Para uma política estacio- 
nária, a cadeia de Markov relacionada pode ser estacionária ou não-estacionária; é possivel utilizar 
uma politica estacionária sobre uma cadeia de Markov não-estacionária, mas não é recomendável 
se fazer isso. Se uma politica estacionária u for empregada, então a sequência de estados {X ,n=0, 
1, 2,…f forma uma cadeia de Markov com probabilidades de transição р). onde pli) significa 
uma ação. E por esta razão que o processo é referido como um processo de decisão de Markov. — 
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que representa a forma ótima da Eq. (12.9). Reconhecendo que л" = (u, 1**') e expandindo parcial- 
mente o somatório no lado direito da Ед. (12.10), podemos escrever 


JG) D e KA) 


PE Ir EST ГИ 


&-1l 
tg.) V е Qu GG) Kr) 


айж] 


= min E {g (Ko, QC). X.) (12.11) 


* min | B | [atos x ОООО) 


snl 


- min £ g (X, nu, X, Re] 


onde na última linha usamos a definição da Equação (12.10) com n + | no lugar de л. Agora assuma 
que para um dado л e para todo А, tenhamos 


н+1 


JG jd uu А. (12.12) 


Entào podemos rescrever a Eq. (12.11) na forma 


SHA) = min Ele (C. ADA aan) (12.13) 


Se a Eq. (12.12) for válida para todo X... então claramente a equação 
JG) JG) 
também é válida para todo X . Consegüentemente, deduzimos da Eq. (12.13) que 
J,X,) = min E [KIA +] 


Podemos assim formalmente formular o algoritmo de programação dinâmica como segue (Bertsekas, 
1995b): 


Para todo estado inicial A, o custo ótimo JMX) do problema básico de horizonte finito é igual a 
FA, onde a função J, é obtida do último passo do seguinte algoritmo: 


J,(À,) 7 min É KANN] (12.14) 


que age para träs no tempo, com 
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JL) m e, 0) 


Além disso, se Ш“ minimiza o lado direito da Eq. (12.14) para cada X, e n, então a politica m* = {це 
HS Ш. + € Ótima, 


A Equação de Otimização de Bellman 


Na sua forma básica, o algoritmo de programação dinâmica trata de um problema de horizonte 
finito. Estamos interessados em estender o uso deste algoritmo para tratar do problema descontado 
de horizonte infinito descrito pela função de custo para avançar da Eq. (12.5) sob uma política 
estacionária т = {Lh Lh Ht Tendo este objetivo em mente, podemos fazer duas coisas: 


• Inverter 0 indice de tempo do algoritmo de modo que corresponda ao problema descontado. 
s Definir o custo g (Y. (A), X...) como 


A X). X VEN nox y X) (12.18) 


Podemos agora reformular o algoritmo de programação dinâmica como segue (veja o Problema 
12.4): 


J 4 UG) = min El AHA) X.) WCK] (12.16) 
que começa a partir das condições iniciais 
JA) = 0 para todo Y 


O estado X, é o estado inicial, X, ё o novo estado que resulta da ação da política u, e y é o fator de 
desconto. 


Considere que *(/) represente o custo ótimo de horizonte infinito para o estado inicial A, = i. 
Podemos então ver J*(i) como o limite do custo ótimo de А estágios correspondente „/ (i) quando o 
horizonte K se aproxima do infinito; isto é, 


J*(i)- lim li) para todo i (12.17) 


Esta relação é o elo de conexão entre os problemas descontados de horizonte finito e de horizonte 
infinito. Fazendo n+ l=Ke A, = ina Eq. (12.16) e então aplicando a Eq. (12.17), obtemos 


J* (0) = min E[g(i a(i) X) + 17* Q0] (12.18) 


Para estimar o custo ótimo de horizonte infinita J*(/), procedemos em dois estágios: 
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1. Estimamos o valor esperado do custo gli, u(i), X.) em relação a X, escrevendo 


E|gti), ua), Х, ] = Y pel MDI) (12.19) 


Jm! 


onde N é o número de estados do ambiente е p, é a probabilidade de transição do estado inicial 
X, = i para o novo estado X, = j. А quantidade definida na Eq. (12.19) é o custo esperado 
imediato incorrido no estado i i por seguir a ação recomendada pela política u. Representando 
este custo por cli, Mi), podemos escrever 


ciu = Y pelt wiki) (12.20) 


j=l 


2. Estimamos o valor esperado de JMA) em relação a X, Aqui notamos que se conhecermos o 
custo JMA) para cada estado X, de um sistema de estados finitos, podemos determinar facil- 
mente o valor esperado de J*(X ) em termos das probabilidades de transição da cadeia de Markov 
subjacente escrevendo 


El fa]= Y p,J*() (12.21) 


j=l 


Assim, utilizando as Eqs. (12.19) a (12.21) na Eq. (12.16), obtemos o resultado desejado 


A 
TU mil) +1 Y n(0J* (f)| parai z 1,2,...,.N (12.22) 
H 


jal 


A Equação (12.22) é chamada a equação de otimização de Bellman. Ela não deve ser vista como 
um algoritmo. Em vez disso, representa um sistema de N equações, com uma equação por estado. A 
solução deste sistema de equações define as funções de custo para avançar ótimas para os N estados 
do ambiente. 

Há dois métodos básicos para calcular uma política ótima, Eles são chamados de iteração de 
política e iteração de valor. Estes dois métodos são descritos nas Seções 12.4 e 12.5, respectiva- 
mente. 


12.4 ITERAÇÃO DE POLÍTICA 


Para estabelecer a base para uma descrição do algoritmo de iteração de política, começamos intro- 
duzindo um conceito chamado de fator Q por Watkins (1989). Considere uma politica existente р 
para a qual a função de custo para avançar J"(i) é conhecida para todos os estados i. O fator O para 
cada estado ¡e X cação a e A, é definido como o custo imediato mais a soma dos custos descon- 
tados de todos os estados sucessores que seguem a politica |, como mostrado por 


CF (i.a) = c(i a) XY. pta U) (12.23) 
Jel 


onde a ação a = u(i). Note que os fatores Q, Qi, a), contêm mais informação que a função de custo 
para avançar Mi). As ações podem, por exemplo, ser ordenadas com base apenas nos fatores Q, 
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enquanto que ordená-las com base na função de custo para avançar requer também o conhecimento 
dos custos e das probabilidades de transição de estado. 

Podemos ganhar um maior entendimento do significado do fator Q visualizando um novo 
sistema cujos estados são constituidos dos estados originais 1, 2,..., Ne de todos os pares estado- 
ação (i, a) possíveis, como representado na Fig. 12.2. Há duas possibilidades distintas que podem 
ocorrer: 


FIGURA 12.2 liustrazao de 
duas transições possíveis: a 
transição de estado {i а} para 
o estado få probabilística, mas 
a transição do estado i para (i, 
a) à daterministica 





+ O sistema está no estado (1, a), onde nenhuma ação é realizada. É feita automaticamente a 
transição para o estado j, digamos, com probabilidade р (a), e incorre-se em um custo gli, 
a, j}. 

* О sistema está no estado i, digamos, e a ação a € A, é realizada. O próximo estado é (1, a), 
deterministicamente. 


Diz-se que a política u é gulosa em relação à função de custo para avançar Mr) se, para todos os 
estados, (Т) for uma ação que satisfaz a condição 


G (iu) = minQ"(i,a) para todo i (12.24) 


As duas observações seguintes sobre a Eq. (12,24) são dignas de nota: 


e É possível que mais de uma ação minimize o conjunto de fatores Q para um estado, e neste 
caso pode haver mais de uma política gulosa em relação à função de custo para avançar 
pertinente. 

+ Uma politica pode ser gulosa em relação a muitas funções de custo para avançar. 


Além disso, o seguinte fato é básico para todos os métodos de programação dinâmica: 
Q" (ip) = ming (i.a) (12.25) 


onde и* é uma política ótima e J* é a função de custo para avançar ótima correspondente. 

Com as noções de fator Q e política gulosa à nossa disposição, estamos prontos para descrever 
o algoritmo de iteração de política. Especificamente, o algoritmo opera alternando entre dois pas- 
sos (Bertsekas, 1995b): 


1. Passo de avaliação da politica, no qual são computados a função de custo para avançar para 
uma política corrente e o fator Q correspondente para todos os estados c ações. 
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ramente calculados utilizando-se a Eq. (12.29). A seguir, uma política gulosa em relação áquele 
conjunto ótimo é obtida como uma política ótima. Isto é, 


H*()=argminO* (a), i=1,2, N (12.30) 
onde 


Q* (ia) chia) +YY p, (a). J*(j) i21,2,..,N (12.31) 


Jel 


Um resumo do algoritmo de iteração de valor, baseado nas Eqs. (12.29) a (12.31), é apresentado na 
Tabela 12.2. Este resumo inclui um critério de parada para a Eq. (12.29). 


TABELA 12.2 Resumo do Algoritmo de Iteragäo de Valor 


1. Comece com um valor inicial arbitrário J (рага o estado é = 1, 2,.., №. 


2. Рагап =, E, 2..., calcule 


a ex, 
Е 


2де minore 0| u Ий 


Continue este cálculo até 


MD JI se para cada estado é 


onde є é um parâmetro de tolerância predeterminado, Assume-se que e seja suficientemente pequeno para J (i) 
ser próximo o suficiente da função de custo para avançar 20, Podemos assim fazer 


Jti) FM para todos os estados i 
3. Calcule o fator Q 


ses e 


Ld 
* (i a) — ci, Land 
Q* (ia) - ci a) Y2 pita) u 121,2,..,N 


Com isso, determine a politica ótima como uma política gulosa para „7 "(lx 


р) = агр mind * LL a) 
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Exemplo 12.1 O Problema da Diligéncia 


Para ilustrar a utilidade do fator O em programação dinâmica, consideramos o problema da diligencia. Um 
caçador de fortunas em Missouri decidiu partir para o oeste para se juntar à corrida do ouro па Califómia em 
mesdos do século dezenove (Hiller e Lieberman, 1995). A jornada exigiu viajar em diligência através de 
regiões desocupadas, o que impôs um sério risco de ataque por saqueadores ao longo do caminho. O ponto 
inicial da jornada (Missouri) e o destino (California) eram fixos, mas havia uma escolha considerável envol- 
vendo outros ойо estados que poderiam ser atravessados no roteiro, como mostrado na Fig. 12.4. Nesta figura, 
temos o seguinte: 





FIGURA 12.4 Gralo de ихо para o problema da diligência 


Um total de 10 estados, cada um representado por uma letra, 

+ А direção da viagem é da esquerda para a direita. 
Há quatro estágios (i.e., corridas de diligência) do ponto de embarque no estado A (Missouri) até o 
destino no estado J (Califórnia). 

= Na transição de um estado para o seguinte, a ação realizada pelo caçador de fortuna é se mover 
acima, à frente, ou abaixo, 

es Hå um total de 18 roteiros possíveis do estado А para o estado JJ. 


A Figura 12.4 inclui também o custo de uma apólice de seguro para tomar qualquer corrida de diligência 
bascada em uma avaliação cuidadosa da segurança daquela corrida. O problema é encontrar o roteiro do 
estado A para o estado J com a apólice de seguro mais barata, 

Para encontrar o roteiro ótimo, consideramos uma seqüéncia de problemas de horizonte finito, come- 
cando do destino no estado „/ e trabalhando no sentido retrógrado. Isto está de acordo com o principio de 
otimização de Bellman desento na Seção 12.3, 

Calculando os fatores О para о último estágio antes do destino, constatamos facilmente da Fig. 12.5a 
que os valores Q terminais são os seguintes: 


(HH, abaixo) = 3 
CA, acima) 4 


Estes números estão indicados nos estados He f, respectivamente, na Fig. 12.5a. 


A seguir, movendo para trás um estágio e utilizando os valores O da Fig. 12.54, temos os seguintes 
valores (+ 
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(a) 





FIGURA 12.5 Passos envolvidos no cálculo dos fatores O para o problema da diligência 


CXE, à frente) = 1+3=4 
OCE, abaixo) = 4+4 = # 
СХЕ, acima) = 6*3-9 
OF, abaixo) - 3+4=7 
CG, acima) == 3+3=6 
OG, à frente) - 3+4=7 
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Entretanto, é importante se reconhecer que uma vez que sejam introduzidas aproximações, 
não se pode esperar que a função de escore JH, w) convirja para a função de custo para avançar 
óuma ./*(-). [sto se deve ao fato de que J*(-) pode não estar dentro do conjunto de funções represen- 
tadas exatamente pela estrutura de rede neural escolhida. 

Nas duas próximas seções, discutimos dois procedimentos de programação dinâmica aproxi- 
mada com aproximações da função de custo para avançar. O primeiro procedimento, deserito na 
Seção 12.7, trata da iteração de política aproximada, assumindo que esteja disponivel um modelo 
markoviano do sistema. O segundo procedimento, descrito na Seção 12.8, trata de um procedimen- 
to chamado aprendizagem ©, que nào faz qualquer suposição. 


12.7 ITERACÁO DE POLÍTICA APROXIMADA 


Suponha que tenhamos um problema de programação dinâmica para o qual o número de estados 
possiveis e ações admissíveis seja muito grande, tornando o uso de uma abordagem tradicional 
impraticável. Assumimos que dispomos de um modelo do sistema; isto é, as probabilidades de 
transição pa) е os custos observáveis gli, a, Г) são todos conhecidos. Para tratar desta situação, 
propomos usar uma aproximação para a iteração de política, baseada na simulação de Monte Carlo 
e no método dos minimos quadrados, como deserito a seguir (Bertsekas e Tsitsiklis, 1996). 

A Figura 12.7 mostra um diagrama em blocos simplificado do algoritmo aproximado de iteração 
de politica. Ele € similar ao diagrama em blocos da Fig. 12.3 para o algoritmo tradicional de iteração 
de política, mas com uma diferença importante: o passo de avaliação da politica na Fig. 12.3 foi 
substituído por um passo aproximado. Assim, o algoritmo aproximado de iteração de politica opera 
alternando entre um passo de avaliação aproximada da politica e um passo de melhoria da política 
como segue: 


Custo para 
avançar 
aproximado 


J*(i, w) 






Awalizoção 
da politica 


Rede meural 
FIGURA 12.7 Diagrama para avaliação 
em blocos simplificado da aproximada dà politica ju 
algoritmo aproximado de politica 


Мегасао de política т 


1. Passo de avaliação aproximada da politica. Dada a politica corrente 4, calcula-se uma função 
de custo para avançar ЛЧ, wh que aproxima a função de custo para avançar real ."(i) para 
todos os estados i. O vetor w ё o vetor de parámetros da rede neural utilizado para realizar a 
aproximação, 

2, Passo de melhoria da política. Utilizando a função de custo para avançar aproximada J'(i, 


w), é gerada uma política melhorada u. Esta nova politica é projetada para ser gulosa em 
relação a JPL, w) para todo i. 
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Para que o algoritmo aproximado de iteração de política produza resultados satisfatórios, é 
importante escolher cuidadosamente a política utilizada para iniciar o algoritmo. Isto pode ser feito 
através do uso de heuristicas. Alternativamente, podemos começar com um vetor de pesos м e 
utilizá-lo para derivar uma política gulosa, que por sua vez é utilizada como politica inicial. 

Suponha então que, além das probabilidades de transição e custos observados conhecidos, 
tenhamos os seguintes itens: 


+ Uma politica estacionária р como a política micial 

• Um conjunto de estados 3 representativo do ambiente operacional 

« Um conjunto de Mi’) amostras da função de custo para avançar JF(/) para cada estado ¡e Y; 
uma amostra é representada por ki, m), onde m = 1, 2,..., M(i) 


Considere que J'(i, w) simbolize uma representação aproximada da função de custo para avançar 
J"(i). A aproximação é realizada por uma rede neural (p.ex., um perceptron de múltiplas camadas 
treinado com o algoritmo de retropropagação). O vetor de parámetros w da rede neural é determina- 
do utilizando-se o método dos minimos quadrados, isto é, minimizando a função de custo: 


MELD 
E(w)= Y Y (kim) JC, WIJ (12.32) 


РЕЖ mul 


Tendo determinado o vetor de peso ótimo w e portanto a função de custo para avançar aproximada 
ГІ, w), determinamos a seguir os fatores О utilizando a fórmula (veja as Eqs. (12.20) e (12,23)) 


QU,a,w) » Y p (aeia j) yy Lj, w) (12.33) 


pe 


onde p (a) é a probabilidade de transição do estado i para o estado j sob a ação a (conhecida), gi, a, 
Å) é o custo observado (também conhecido) e y é um fator de desconto especifico. A iteração é 
completada utilizando-se estes fatores Q aproximados para determinar uma politica melhorada ba- 
seada na fórmula (veja a Eq. (12.28) 


шӯ) = arg min QU, a, w) (12.34) 


É importante notar que as Eqs. (12,33) e (12.34) são utilizadas pelo simulador para gerar ações 
apenas nos estados que são realmente visitados pela simulação, em vez de gerá-las em todos os 
estados. Dessa forma, estas duas equações não sofrem da maldição da dimensionalidade. 

O diagrama em blocos da Fig. 12.8 apresenta uma descrição mais detalhada do algoritmo 
aproximado de iteração de política. Este diagrama consiste de quatro módulos conectados entre si 
(Bertsekas e Tsitsiklis, 1996): 


1. O simulador, que utiliza as probabilidades de transição de estado dadas e os custos observados 
em um passo para construir um modelo substituto do ambiente, O simulador gera duas coisas: 
(a) estados em resposta a ações para imitar o ambiente e (b) amostras da função de custo para 
avançar para uma dada política. 

2. O gerador de ação, que gera uma política melhorada (i.e., sequência de ações) de acordo com 
a Eq. (12,34). 
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Teorema de Convergência” 


Suponha que o parámetro da taxa de aprendizagem тү (i, a) satisfaça as condições 


Y na) = e Y nia) <= para todo (1,2) (12.41) 


A wii лап 


Então, a seqiiéncia de fatores Q (Q fi, alf gerada pelo algoritmo de aprendizagem Q converge com 
probabilidade і para o valor ótimo (fi, a) para todos os pares estado-ação (1, a) quando a número 
de iterações n se aproxima do infinito, desde que todos os pares estado-ação sejam visitados infinitas 
WEZEN, 


Um exemplo de um parâmetro de aprendizagem variável no tempo que garante a convergência do 
algoritmo é 





езү, the (12.42) 


onde ot e D são números positivos. 

Em suma, o algoritmo de aprendizagem Q é uma forma de aproximação estocástica da política 
de iteração de valor. Ele armazena o fator Q para um único par estado-ação a cada iteração do 
algoritmo, isto é, o estado corrente e à ação realmente executada. Mais importante é o fato de que, 
no limite, o algoritmo converge para os valores Q ótimos sem formar um modelo explicito dos 
processos subjacentes de decisão markovianos. Uma vez que os valores Q ótimos estejam disponi- 
veis, pode-se determinar uma política ótima relativamente com pouca computação utilizando a Ea. 
(12.30). 

A convergência da aprendizagem Q para uma politica ótima assume o uso de uma representa- 
ção por tabela de consulta para os fatores О O (i, a). Este método de representação é direto e 
computacionalmente eficiente. Entretanto, quando o espaço de entrada consistindo de pares estado- 
ação for grande ou as variáveis de entrada forem continuas, o uso de uma tabela de consulta pode 
ser proibitivamente custoso devido à necessidade de uma memória muito grande, Nesta situação, 
podemos recorrer ao uso de uma rede neural para fins de aproximação de função. 


Aprendizagem Q Aproximada 
As Equações (12.38) e (12.39) definem as fórmulas de atualização para o fator Q para o par estado- 
ação corrente (i , a). Este par de equações pode ser rescrito na forma equivalente 
O (int) = ERTEN 
нта í,,a,, j,) + О, (лр) ACER] (12.43) 
Tratando a expressão dentro dos colchetes no lado direito da Eq. (12.43)'como o sinal de erro 


envolvido na atualização do fator Q corrente Q (i , a), podemos identificar o fator Q alvo (deseja- 
do) no passo de tempo n como: 
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TABELA 12.4 Resumo do Algoritmo Aproximado de Aprendizagem Q 


l. Comece com um vetor peso inicial w, que resulta no fator О Mi, a, w,); 0 vetor peso w, se refere a uma rede 
neural utilizada para realizar a aproximação. 


2. Parma iteração n= 1, 2,..., faça o seguinte: 


(a) 


(6) 


Para а configuração w da rede neural, determine a ação ótima: 


E, = min a, li, a. Fr w) 
и. | 
Determine o fator С) alvo 


OE ia, w) = gli, aja) + Y min Q,U, W) 


(c) Atualize o fator Q 
Oli "s w) T Qi i. a. w) Е AQ (i, dn w) 
onde 
Мой. аже Жр NEW O lisa, WD, (а) = (а) 
0, caso contrário 
(d) Aplique (i, a ) como entrada para a rede neural produzindo а saida Qt, a, W) como uma aproximação 
para o fator Q alvo Q%*(í a, w). Modifique o vetor peso w levemente de modo a trazer Q (i.a, м) 
para mais próximo do valor alvo (Q""*(i aw) 
(e) Volte para o passo (a) e repita a computação. 
Exploração 


Na iteração de política, todas as partes potencialmente importantes do espaço de estado deveriam 
ser exploradas. Na aprendizagem Q, temos uma exigência adicional: todas as ações potencialmente 
vantajosas deveriam também ser tentadas. Em particular, todos os pares estado-ação admissíveis 
deveriam ser explorados com freqúéncia suficiente para satisfazer o teorema da convergência, Para 
uma política gulosa representada por ц, apenas os pares estado-ação (i, ЏО) são explorados. Infe- 
lizmente, não há garantia de que todas as ações vantajosas sejam experimentadas, mesmo se o 
espaço de estado inteiro for explorado. 

O que necessitamos é de uma estratégia que expanda a aprendizagem Q fomecendo um com- 
promisso entre dois objetivos conflitantes (Thrun, 1992): 


A exploração, que assegura que todos os pares estado-ação admissíveis sejam explorados 
com frequência suficiente para satisfazer o teorema de convergência da aprendizagem O. 
O aproveitamento, que procura minimizar a função de custo para avançar seguindo uma 
política gulosa. 
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A Figura 12.12 apresenta os resultados correspondentes obtidos utilizando um perceptron de 
múltiplas camadas com dois nós de entrada, 10 neurônios ocultos e um neurônio de saida. Um dos 
nós de entrada representa o estado e os outros nós representam a ação realizada para se mover de um 
estado para o seguinte, À saida do perceptron de multiplas camadas representa o valor Q calculado 
pela rede. À rede foi treinada utilizando o algoritmo de retropropagação padrão. O valor O alvo 
utilizado no tempo л foi calculado utilizando-se a Eq. (12.44). O parámetro da taxa de aprendiza- 
gem foi fixado em 0,012 e não foi utilizado o fator de momento. A rede foi treinada com 10.000 
tentativas para cada par estado-ação. A Figura 12.12 apresenta as histórias de aprendizagem para os 
valores O: (4, acima), (MC, à frente), QIE, à frente) e O(7, acima). O roteiro ótimo encontrado 
pela rede foi 
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FIGURA 12.12 Curvas de aprendizagem para о problema da diligência utilizando uma rede neural, (a) 
Curva de aprendizagem para Q (A, acima). (b) Curva de aprendizagem para QC, à frente). (c) Curva de 
aprendizagem рага CHE, à frente). (d) Curva de aprendizagem para Q (|, acima) 


o qual se reconhece como um dos roteiros ótimos com um custo total de 11. 
As exigências computacionais para os dois métodos de implementação são resumidas como 
segue: 
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Na aprendizagem Q aproximada, é utilizada uma rede neural рата aproximar as estimativas dos 
fatores Q de modo a evitar a necessidade da exigência excessiva de memória quando o numero de 
estados possiveis for grande. Em resumo, a aprendizagem Q aproximada é um algoritmo baseado 
em simulação para resolver um problema de decisão markoviano quando um modelo do sistema 
não estiver disponivel e a exigência de memória for um requisito adicional. Claro que ela pode ser 
aplicada mesmo se um modelo do sistema estiver disponivel, e neste caso ela fomece uma alterna- 
tiva à iteração de politica aproximada. 

As técnicas de programação neurodinámica são particularmente efetivas na solução de pro- 
blemas de larga escala nos quais o planejamento ё uma preocupação importante, As abordagens 
tradicionais para a programação dinâmica são dificilmente aplicáveis a problemas desta natureza 
por causa do enorme tamanho do espaço de estado que deve ser explorado. A programação 
neurodinâmica de fato tem sido aplicada com sucesso para resolver problemas dificeis do mundo 
real em muitos campos diferentes, que incluem o jogo de gamão (Tesauro, 1989, 1994), a otimização 
combinatória (Bertsekas e Tsitsiklis, 1996), o controle de elevadores (Crites e Barto, 1996) e a 
alocação dinâmica de canal (Singh e Bertsekas, 1997; Nie e Haykin, 1996, 1998). A seguir, a apli- 
cação ao jogo de gamão é descrita com algum detalhe. 

O desenvolvimento de um programa de computador baseado em rede neural para jogar gamdo, 
primeiramente relatado em Tesauro (1989) e mais tarde aperfeiçoado em Tesauro (1994), é uma 
história de sucesso particularmente impressionante que tem sido uma fonte de motivação para a 
pesquisa em programação neurodinâmica. Gamão é um jogo antigo de tabuleiro para dois jogado- 
res. E jogado efetivamente ao longo de um caminho unidimensional. Os jogadores revezam-se 
jogando um par de dados e movendo correspondentemente suas peças em direções opostas ao longo 
do caminho. As jogadas válidas feitas por cada jogador dependem do resultado do lance dos dados 
e da configuração do tabuleiro. O primeiro jogador a mover todas as suas peças para frente até o 
final do tabuleiro é o vencedor. O jogo pode ser modelado como um processo de decisão markoviano, 
com um estado sendo definido por uma descrição da configuração do tabuleiro, o resultado do lance 
dos dados e a identidade do jogador que está fazendo a jogada. A primeira versão do neurogamão 
construida por Tesauro (1989) utilizou aprendizagem supervisionada. Ela foi capaz de aprender em 
um nivel intermediário forte, dada apenas uma descrição “grosseira” do estado. Talvez a descoberta 
mais interessante relatada tenha sido o bom comportamento em relação ao escalamento, no sentido 
de que, conforme o tamanho da rede neural e a quantidade de experiência de treinamento iam 
crescendo, foram observadas melhorias substanciais no desempenho. А rede neural utilizada no 
estudo foi um perceptron de múltiplas camadas (MLP) treinado com o algoritmo de retropropagação. 
O melhor desempenho foi obtido utilizando-se um MLP com 40 neurônios ocultos, e o treinamento 
foi realizado sobre um total de 200.000 jogos. Em um estudo subseqüente relatado por Tesauro 
(1994), uma forma de iteração de politica chamada de DT(X) otimista foi usada para treinar a rede 
neural; DT vem da expressão aprendizagem por diferença temporal, adotada por Sutton (1988). A 
DT(A) otimista é um método baseado em simulação para aproximar a função de custo para avançar 
+“, no qual a politica и é substituida por uma nova política u que é gulosa em relação à aproximação 
de.” a cada transição de estado (Bertsekas e Tsitsiklis, 1996). O programa de computador baseado 
neste método de programação neurodinâmica é normalmente referido como gamão DT, Tesauro 
adicionou funções manipuladas do estado (ie, feições) à representação da entrada da rede neural, 
possibilitando que o gamão DT jogasse em um nivel de mestre forte, extremamente próximo ao 
melhor jogador humano do mundo. Entre as indicações que contribuiram para esta avaliação estão 


em umerosos testes do gamão DT jogando contra vários grandes mestres humanos de classe mundi- 
al (Tesauro, 1995). 
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NOTAS E REFERÉNCIAS 


1. A abordagem clássica para a aprendizagem por reforço é fundamentada na psicologia, 
remontando ao trabalho inicial de Thorndike (191 1) sobre a aprendizagem animal e aquele 
de Pavlov (1927) sobre condicionamento. Contribuições à aprendizagem por reforço clás- 
sico também incluem o trabalho de Widrow et al. (1973); naquele artigo, foi introduzida a 
noção de critica. À aprendizagem por reforço clássica é discutida no livro de Hampson 
(1990. 

Contribuições importantes à aprendizagem por reforço moderna incluem os trabalhos 
de Samuel (1959) sobre o seu célebre programa de jogo de damas, de Barto et al. (1983) 
sobre sistemas críticos adaptativos, de Sutton (1988) sobre métodos de diferença temporal 
e de Watkins (1989) sobre a aprendizagem O. O manual de controle inteligente de White e 
Sofge (1992) apresenta material sobre controle ótimo por White e Jordan, sobre aprendi- 
zagem por reforço e métodos críticos adaptativos por Barto e sobre programação dinâmica 
heuristica por Werbos. 

Bertsekas e Tsitsiklis (1996) apresentam o primeiro tratamento da aprendizagem por 
reforço modema na forma de livro, Para um relato histórico sobre aprendizagem por refor- 
co, veja Sutton e Barto (1998). 

2. A programação dinâmica foi desenvolvida por R. E. Bellman no final dos anos 50; veja 
Bellman (1957), Bellman e Dreyfus (1962). Para uma exposição detalhada sobre o assun- 
to, veja o livro em dois volumes de Bertsekas (19956). 

3, A iteração de política e a iteração de valor são os dois métodos principais da programação 
dinâmica. Hà dois outros métodos de programação dinâmica que merecem ser menciona- 
dos: 0 método de Gauss-Seidel e a programação dinâmica assincrona {Barto et al, 1995; 
Bertsekas, 1995b). No método de Gauss-Seidel, a função de custo para avançar é atualizada 
em um estado а cada tempo em uma varredura sequencial de todos os estados, com a 
competição para cada estado sendo baseada nos custos mais recentes dos outros estados. À 
programação dinâmica assincrona difere do método de Gauss-Seidel na medida em que 
não é organizada em termos de varreduras sucessivas sistemáticas do conjunto de estados. 

4. Na página 96 da sua tese de doutorado, Watkins (1989) faz as seguintes observações sobre 
a aprendizagem С: 


“0 apéndice | apresenta uma prova de que este método de aprendizagem funciona 
para os processos de decisão markovianos finitos. À prova também mostra que o me- 
todo de aprendizagem convergirá rapidamente para a função de valor de ação ótima. 
Embora esta seja uma idéia muito simples, tanto quanto eu saiba, ela não foi sugerida 
antes, Entretanto, deve ser dito que os processos de decisão markovianos e a progra- 
mação dinâmica estocástica têm sido extensivamente estudados por mais de trinta 
anos para serem usados em vários campos diferentes, e é improvável que ninguém 
tenha levado em consideração anteriormente o método de Monte-Carlo" 


Em um comentário de rodapé sobre estas observações, Barto et al, (1995) salientam que, 
embora a idéia de atribuir valores a pares estado-ação forme a base da abordagem da 
programação dinâmica estudada em Denardo (1967), eles não encontraram algoritmos 
como o da aprendizagem Q para estimar estes valores que antecedessem a tese de Watkins 
de 1989. 

5. Em Watkins (1989) foi apresentado o esboço de uma prova do teorema de convergência 
para a aprendizagem Q. que foi mais tarde refinado em Watkins e Dayan (1992). Em 
Tsitsiklis (1994) foram apresentados resultados mais gerais sobre a convergência da apren- 
dizagem Q; veia também Bertsekas e Tsitsiklis (1996). 
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caPíTULO 13 


Processamento Temporal 
Utilizando Redes Alimentadas Adiante 


13.1 INTRODUÇÃO 


O tempo constitui um ingrediente essencial do processo de aprendizagem. Ele pode ser continuo ou 
discreto. Independentemente da sua forma, o tempo é uma entidade ordenada que é básica para 
muitas tarefas cognitivas encontradas na prática, como a visão, a fala, o processamento de sinais e o 
controle motor. É através da incorporação do tempo na operação de uma rede neural que ela é 
capacitada a seguir as variações estatísticas em processos não-estacionários como os sinais da fala, 
sinais de radar, sinais advindos do motor de um automóvel е flutuações em preços do mercado de 
ações, apenas para mencionar alguns destes processos. À questão é: como podemos incorporar o 
tempo na operação de uma rede neural? À resposta a esta questão fundamental se encontra em uma 
das duas seguintes possibilidades: 


Representação implicita. O tempo é representado pelo efeito que tem sobre o processamento 
de sinais de uma maneira implicita.! Por exemplo, o sinal de entrada é amostrado uniforme- 
mente, e a sequência de pesos sinápticos de cada neurônio conectados à camada de entrada 
da rede sofre uma convolução com uma sequência diferente de amostras de entrada. Fazen- 
do assim, a estrutura temporal do sinal de entrada é inserida na estrutura espacial da rede. 
Representação explicita. O tempo recebe sua própria representação particular.” O sistema 
de ecolocalização de um morcego, por exemplo, opera emitindo um curto sinal de frequência 
modulada (FM), de modo que o mesmo nível de intensidade é mantido para cada canal de 
freqüéncia restrito a um periodo muito curto dentro da varredura de FM. São realizadas 
múltiplas comparações entre várias frequências diferentes codificadas por um arranjo de 
receptores auditivos com a finalidade de extrair informação precisa sobre a distância (al- 
cance) até o alvo (Suga e Kanwal, 1995). Quando um eco é recebido do alvo com um atraso 
desconhecido, um neurônio (no sistema auditivo) com uma linha de atraso casada com este 
sinal responde, fornecendo dessa forma uma estimativa do alcance do alvo. 
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Neste capitulo, estamos preocupados com a representação implicita do tempo, pela qual uma 
rede neural “estática” (p.ex., um perceptron de múltiplas camadas) é suprida com propriedades 
dinámicas. Isto, por sua vez, torna a rede sensivel à estrutura temporal dos sinais portadores de 
informação. 

Para que uma rede neural seja dinámica, ela deve ter memória. Como salientado no Capitulo 
2, a memória pode ser dividida em memória de “curto prazo” e de “longo prazo”, dependendo do 
tempo de retenção. A memória de longo prazo é inserida em uma rede neural através de aprendiza- 
gem supervisionada, pela qual o conteúdo de informação do conjunto de dados de treinamento é 
armazenado (parcialmente ou totalmente) nos pesos sinápticos da rede. Entretanto, se a tarefa con- 
siderada tiver uma dimensão temporal, necessitamos de alguma forma de memória de curto prazo 
para tornar a rede dinâmica. Uma forma simples de inserir memória de curto prazo na estrutura de 
uma rede neural é através de atrasos de tempo, que podem ser implementados a nivel sináptico 
dentro da rede ou na camada de entrada da rede. O uso de atrasos de tempo em redes neurais tem 
motivação neurobiológica, já que é bem conhecido que atrasos de sinal são onipresentes no cérebro 
e desempenham um papel importante no processamento neurobiológico da informação ( Braitenberg, 
1967, 1977, 1986; Miller, 1987). 


Organização do Capítulo 


О material neste capítulo está organizado em três partes. A primeira parte, consistindo das seções 
13.2 е 13.3, trata das estruturas e modelos de rede. Na Seção 13.2, apresentamos uma discussão das 
estruturas de memória, seguida pela Seção 13.3 sobre uma descrição de duas diferentes arquiteturas 
de rede para 0 processamento temporal de sinais. 

A segunda parte do capítulo, consistindo das Seções 13.4 a 13,6, trata de uma classe de redes 
neurais conhecida como redes alimentadas adiante, focadas e atrasadas no tempo; o termo “focada” 
se refere ao fato de que a memória de curto prazo está localizada inteiramente no terminal frontal da 
rede. Um experimento computacional sobre esta estrutura é descrito na Seção 13,6. 

A terceira parte do capítulo, consistindo das Seções 13.7 а 13.9, trata das redes alimentadas 
adiante distribuidas, atrasadas no tempo, nas quais linhas de atraso são distribuidas através da rede. 
А Seção 13.7 descreve modelos espaço-temporais de um neurônio, seguida de uma discussão na 
Seção 13,8 sobre a segunda classe de redes neurais mencionada acima. Na Seção 13.9, descrevemos 
o algoritmo de retropropagação "temporal" para o treinamento supervisionado de redes alimenta- 
das adiante distribuidas, atrasadas no tempo. 

O capítulo conclui com algumas observações finais na Seção 13.10. 


13.2 ESTRUTURAS DE MEMÓRIA DE CURTO PRAZO 


O papel principal da memória é transformar uma rede estática em uma rede dinâmica. Em particu- 
lar, incorporando memória na estrutura de uma rede estática como um perceptron de múltiplas 
camadas ordinário, a saida da rede se torna uma função do tempo. Esta abordagem para construir 
um sistema dinâmico não-linear é direta porque fornece uma clara separação de responsabilidades: 
a rede estática é responsável pela nào-linearidade, e a memória é responsável pelo tempo. 

A memória de curto prazo” pode ser implementada em tempo contínuo ou em tempo discreto. 
O tempo continuo é representado por £, € o tempo discreto é representado por n. O circuito resistivo- 
capacitivo da Fig. 13.1 é um exemplo de memória de tempo continuo, que é caracterizada por uma 
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Unidade 1 Unidade 2 Unidade п 
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Terminais de sakta 
FIGURA 13.2 Memória de linha de atraso derivada generalizada de ordem р 


De agora em diante, g(n) será referida como o núcleo gerador da memória de tempo discreto. 

Com base na Fig. 13.2, podemos formalmente definir uma memoria de tempo discreto como 
um sistema linear de única entrada e múltiplas saidas (SIMO, single input-multiple output) invariante 
no tempo cujo nüclco gerador satisfaz estas propriedades. Os pontos de junção, aos quais os termi- 
nais de saída da memória são conectados, são normalmente chamados de derivações. Note que para 
uma memoria de ordem p, hà p + 1 derivações, com uma derivação pertencente à entrada. 

Os atributos de uma estrutura de memória são medidos em termos de profundidade е resolu- 
ção. Considere que g (4) represente a resposta global ao impulso da memória, definida como p 
convoluções sucessivas de ein), ou, equivalentemente, como a transformada z inversa de G (z). A 
profundidade da memoria, representada por D, é definida como o primeiro momento temporal de 
g (n), como mostrado por 


D- Y ng (n) (13.5) 


nel 


Uma memória de baixa profundidade D mantém o seu conteúdo de informação somente por um 
periode de tempo relativamente curto, enquanto que uma memória de alta profundidade mantém 
seu conteúdo de informação muito mais longe no passado, À resolução da memória, representada 
por R, € definida como o número de derivações na estrutura de memória por unidade de tempo. Uma 
memória de alta resolução А é capaz de manter informação sobre a sequência de entrada em um 
nivel fino, enquanto que uma memoria de baixa resolução pode fazer isso somente em um nivel 
muito mais grosseiro. Para um número fixo de derivações, o produto da profundidade de memória 
pela resolução da memória é uma constante igual à ordem da memória p. 

Diferentes escolhas do núcleo gerador g (n) naturalmente resultam em diferentes valores para 
a profundidade D e resolução Æ, como ilustrado nas duas estruturas de memória a seguir. 


Memória de linha de atraso derivada. A Figura 13.3 mostra o diagrama em blocos da forma 
mais utilizada de memoria de curto prazo chamada de memoria de linha de atraso derivada. Con- 
siste de p operadores de atraso unitário, cada um caracterizado por G(z) = z^. Isto é, o núcleo 
gerador é gin} = бл — 1), onde (n) é o impulso unitário: 


l, n=0 
EIER р (13.6) 
(a) O nal 


A resposta global ao impulso da linha de atraso derivada da Fig, 13.3 é (n) = öfa — p). Substituir 
este g (n) na Eg. (13.5) produz a profundidade da memória D = p, que é razoável intuitivamente. Da 
Fig. 13.3 vemos que hà apenas uma derivação por unidade de tempo; com isso, R = 1. Assim, a 
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FIGURA 13.7 (a) Uma rede cujos neurónios ocultos e neurônios de saída são repii- 
cados através do tempo. (b) Representação da rede neural de atrasos de tempo 
(ТОМА). (Retirado de Kd. Lang e G.E. Hinton, 1888. com permissão) 


os seus estados ocultos; veja a nota 11 no Capitulo 11. Muitos sistemas hibridos de TDNN e HMM 
foram estudados na literatura." 


13.4 REDES ALIMENTADAS ADIANTE 
FOCADAS ATRASADAS NO TEMPO 


A utilização prototípica de uma rede neural estática (p.ex., perceptron de múltiplas camadas e a rede 
de função de base radial) é no reconhecimento estrutural de padrões. O reconhecimento temporal 
de padrões, ao contrário, requer o processamento de padrões que evoluem no tempo, com a resposta 
em um instante particular de tempo dependendo não apenas do valor presente da entrada, mas 
também de seus valores passados, A Figura 13.8 mostra o diagrama em blocos de um filtro пйо- 
linear baseado em uma rede neural estática (Mozer, 1994). A rede é estimulada através de uma 
memória de curto prazo. Especificamente, dado um sinal de entrada consistindo do valor presente 
xin) е de p valores passados літ — 1)..... xn —p) armazenados em uma memoria de linha de atraso de 
ordem р, por exemplo, os parámetros livres da rede neural são ajustados para minimizar o erro 
médio quadrado entre a saida da rede, y(n), e а resposta desejada dn). 

A estrutura da Fig. 13.8 pode ser implementada ao nivel de um único neurônio ou de uma rede 
de neurônios. Estes dois casos estão ilustrados nas Figuras 13.9 e 13.10, respectivamente. 
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FIGURA 13.8 Filtro não-linear construido eam uma rede neural estática 
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FIGURA 13.9 Filtro neural focado 


Para simplificar a apresentação, utilizamos uma memória de linha de atraso derivada como a estru- 
tura de memória de curto prazo nas Figuras 13.9 e 13.10. Claramente, ambas as figuras poderiam 
ser generalizadas utilizando-se uma unidade com função de transferência G(z) no lugar de 27'. 

A unidade de processamento temporal da Fig. 13.9 é composta de uma memória de linha de 
atraso derivada com suas derivações conectadas às sinapses de um neurônio. A memória de linha de 
atraso derivada captura a informação temporal contida no sinal de entrada e o neurônio insere esta 
informação em seus próprios pesos sinápticos, A unidade de processamento da Fig. 13.9 é chamada 
de filtro neural focado, focado no sentido de que a estrutura inteira da memória é localizada no 
terminal de entrada da unidade, A saída do filtro, em resposta à entrada x(n) е aos seus valores 
passados x(1 — 1), ..., x(n — p), é dada por 


s e Yoon - 045, (13.11) 
[eb jJ 
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FIGURA 13.10 Rede neural alimentada adiante focada atrasada no tempo (TLFN tocada); 
os niveis de bias foram omitidos por conveniência de representação 


onde p(-) é a função de ativação do neurônio j, os w (7) são seus pesos sinápticos e b, é o bias. Note 
que a entrada para а função de ativação consiste de um bias mais а convolução das sequências de 
amostras de entrada e pesos sinápticos do neurônio. 

Voltando-nos a seguir para a Fig. 13.10, referida como uma rede alimentada adiante focada 
atrasada no tempo (TLFN focada, focused time lagged feedforward network), temos aqui um filtro 
não-linear mais poderoso, consistindo de uma memória de linha de atraso derivada de ordem p e um 
perceptron de múltiplas camadas. Para treinar o filtro, podemos utilizar o algoritmo de retropropagação 


padrão descrito no Capitulo 4. No tempo n, o “padrão temporal” aplicado à camada de entrada da 
rede é o vetor sinal 


x(n) = [x(n), zn — 1)... x(n — p) Y 


que pode ser visto como uma descrição do estado do filtro não-linear no tempo n. Uma época 


consiste de uma sequência de estados (padrões), cujo número é determinado pela ordem da memó- 
ria p e o tamanho N da amostra de treinamento. 


A saída do filtro não-linear, assumindo que o perceptron de múltiplas camadas tem uma única 
camada oculta como mostrado na Fig. 13.10, é dada por 


y0)= У оу) 


D exe (13.12) 
- Emo $ w (ra) +b, ) * b, 
gol 


=D 
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FIGURA 13.11 Resultado do experimento computacional sobre previsão de um passo. (a) 
Superposição das formas de onda real (continua) e prevista (lracejada). (b) Forma de onda do 
erro de previsão 
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Por “invariante a deslocamento” consideramos: se y(n) é a saida do mapa devido a uma entrada xia), 
então a saida do mapa devido à entrada deslocada x(n = n) é p(n- п,) onde o deslocamento temporal 
n, é um inteiro. Em Sandberg e Xu (1997b), é ainda mostrado que para qualquer mapa por memória 
com decaimento uniforme, de variável única, invariante a deslocamentos e causal, existe uma me- 
mória gama e uma rede neural estática, cuja combinação aproxima o mapa uniformemente e arbi- 
trariamente bem. 
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Podemos agora formalmente formular o teorema do mapeamento miope universal” como se- 
gue (Sandberg e Xu, 19972, 19976): 


Qualquer mapa dinâmico miope invariante a deslocamentos pode ser uniformemente aproximado 
arbitrariamente bem por uma estrutura consistindo de dois blocos funcionais: um banco de filtros 
lineares alimentando uma rede neural estática. 


A estrutura incorporada neste teorema pode tomar a forma de uma TLFN focada. Deve-se notar 
também que este teorema é válido quando os sinais de entrada e de saída são funções de um número 
finito de variáveis como no processamento de imagens, por exemplo. 

O teorema do mapeamento miope universal tem aplicações práticas profundas. Ele não apenas 
fornece a justificativa matemática para o NE Talk e sua possível extensão através de uma memória 
gama, mas também estabelece a estrutura para o projeto de modelos mais elaborados de processos 
dinâmicos náo-lineares. As convoluções múltiplas no terminal de entrada da estrutura na Fig. 13.12 
podem ser implementadas utilizando-se filtros lineares com resposta a impulso de duração finita 
(FIR, finite-duration impulse response) ou com resposta a impulso de duração infinita (IIR, infinite- 
duration impulse response). No caso da rede neural estática, ela pode ser implementada usando-se 
um perceptron de múltiplas camadas, uma rede de função de base radial ou uma máquina de vetor 
de suporte treinada pelos algoritmos descritos nos Capítulos 4, 5 e 6. Em outras palavras, podemos 
naturalmente nos basear no material apresentado naqueles capitulos sobre aprendizagem supervisi- 
onada para construir filtros nào-lineares ou modelos de processos dinâmicos nào-lineares. Mais 
importante que isso, a estrutura da Fig. 13.12 € inerentemente estável, desde que os filtros lineares 
sejam eles mesmos estáveis. Temos assim uma clara separação de papéis em relação a como consi- 
derar a memória de curto prazo e a náo-linearidade sem memória. 


13.7 MODELOS ESPAÇO-TEMPORAIS DE UM NEURÔNIO 


O filtro neural focado da Fig. 13.9 tem uma interessante interpretação como desento à seguir. A 
combinação de elementos de atraso unitário e pesos sinápticos associados pode ser vista como um 
filtro de resposta a impulso de duração finita (FIR) de ordem p, como mostrado na Fig. 13.133, о 
filtro FIR é um dos blocos construtivos básicos em processamento digital de sinal (Oppenheim е 
Schafer, 1989: Haykin e Van Veen, 1998). Consequentemente, o filtro neural focado da Fig. 13.9 é, 
na realidade, um filtro FIR näo-linear, como mostrado na Fig. 13.13b. Podemos nos bascar nesta 
representação e com isso estender o poder de processamento do neurônio em um sentido espacial 
através do uso de entradas múltiplas, m, em número, como mostrado na Fig. 13.14. O modelo 
espaço-temporal da Fig. 13.14 é referido como um filtro neural de multiplas entradas. 

Ainda um outro modo de descrever o modelo da Fig. 13.14 é imaginá-lo como um filtro neural 
distribuido, no sentido de que a ação de filtragem está distribuida através de pontos diferentes no 
espaço. À caracterização espaço-temporal do modelo é representada como segue: 


*  Üneurónio tem m, sinapses “primárias”, cada uma consistindo de um filtro linear de tempo 
discreto implementado na forma de um filtro FIR de ordem p; as sinapses primárias são 
responsáveis pela dimensão espacial do processamento de sinal. 

* Cada sinapse primária tem (p + 1) sinapses “secundárias” que são conectadas à sua respec- 
tiva entrada е às derivações de memória de seu filtro FIR, sendo com isso responsável pela 
dimensão temporal do processamento de sinal. 
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ções do conjunto completo das m, sinapses representadas neste modelo (i.e., somando sobre o indi- 
ce i), nós podemos descrever a saida y (n) do neurônio j pelo seguinte par de equações: 


FL Li 


ie Ys (+0, -Y wx (n) + b, (13.23) 
ral izl 


yin qv, (n) (13.24) 


onde vU (n) representa o campo local induzido do neurônio j, b, č o bias aplicado externamente e qx-) 
representa a função de ativação não-linear do neurônio. Assume-se que a mesma forma de nào- 
linearıdade é usada para todos os neurónios da rede. Note que se o vetor de pesos w, € O vetor de 
estado x (n) forem substituidos pelos escalares w, € x, respectivamente, e se, correspondentemente, 
a operação produto interno for substituída pela multiplicação ordinária, o modelo dinâmico de um 
neurônio descrito nas Eqs. (13.23) e (13.24) se reduz ao modelo estático do perceptron de múltiplas 
camadas ordinário descrito no Capítulo 4. 


13.9 ALGORITMO DE RETROPROPAGAÇÃO TEMPORAL 


Para treinar uma rede TLEN distribuida, necessitamos de um algoritmo de aprendizagem supervisi- 
onada pelo qual a resposta real da cada neurônio na camada de saída é comparada com uma resposta 
desejada (alvo) a cada instante de tempo. Assuma que o neurônio j se encontra na camada de saída 
com a sua resposta real representada por y (11) e que a resposta desejada para este neurônio seja 
representada por d (n), sendo ambas medidas no tempo n. Podemos então definir um valor instantá- 
neo para a soma dos erros quadrados produzidos pela rede como: 


1 
Em) => (1) (13.25) 


onde o indice j se refere a um neurônio na camada de saida apenas e e (n) € o sinal de erro definido 


por 
ein) = din) - ул) (13.26) 


O objetivo é minimizar uma função de custo, definida como o valor E(n) computado para todos os 
tempos: 


E uu = I, En) (13.27) 


O algoritmo que temos em mente para computar uma estimativa do vetor de pesos ótimo que alcan- 
ca este objetivo é baseado em uma aproximação do método da descida mais ingreme. 

Um modo óbvio de prosseguir com este desenvolvimento é diferenciar a função de custo da 
Eq. (13.27) em relação ao vetor de pesos w,,€ com 1550 Escrever 


FE us _ v FEU) 
= 2 (13.28) 
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du (m) 

—— = xn") 

dw (п) (13.31) 
onde x (n) é o vetor de entrada aplicado à sinapse i do neurônio j. Além disso, podemos definir o 
gradiente local para o neurônio f como 





dE 1H 
5, (n)= E (13.32) 
Conseqüentemente, podemos rescrever a Eq. (13.30) na forma familiar 
wn +1)= wn) + пб (тух (н) (13.33) 


Como na derivação do algoritmo de retropropagação padrão descrito no Capitulo 4, a forma expli- 
cita do gradiente local 8 (m) depende se o neurônio j está na camada de saída ou na camada oculta da 
rede. 


CASO 1. O neurônio j é uma unidade de saída 


Para a camada de saida, temos simplesmente 


dE 


total 


du, (n) 


__ Fein) (13.34) 
de dm) 


= еи (vn) 


б (м) = – 





onde еќп) é o sinal de erro medido па saida do neurônio j e q'(-) ё a derivada da função de ativação 
p(-) em relação ao seu argumento. 


CASO 2. O neurônio | ё uma unidade oculta 


Para o neurônio j localizado em uma camada oculta, definimos sf como o conjunto de todos os 
neurônios cujas entradas são alimentadas pelo neurônio j de uma maneira para frente. Considere 


que v (n) represente o campo local induzido do neurônio r que pertence ao conjunto 4. Podemos 
então escrever 


de tetal 
dv (m) 


__ IE qa de, tk) 
E 2 = dv, (А) de, (n) 


б (п) = – 
(13.35) 





onde utilizamos o indice A no lugar de n naquelas posições que são de particular interesse. Utilizan- 
do a definição da Eq. (13.32) (com o Índice r no lugar de /) na Eq. (13.35), podemos então escrever 
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FIGURA 13.17 Retropropagacáo de gradientes locais através de 
uma TLFN distribuida 


obtida utilizando-se o método do gradiente instantáneo. Entretanto, estas discrepâncias são normal- 
mente minimas. Para um parámetro da taxa de aprendizagem 1 pequeno, as diferenças entre as 
caracteristicas de aprendizagem destes dois algoritmos são despreziveis para todos os fins práticos. 


Restrições de Causalidade 


Um exame cuidadoso da Eq. (13.42) revela que a computação de b (n) ё náo-causal porque re- 
quer conhecimento de valores futuros dos бє e dos ws. Para tornar esta computação causal, nota- 
mos primeiramente que a referência temporal exata usada para a adaptação nào é importante. 
Além disso, as estruturas sinápticas empregadas na rede são todas filtros FIR, Conseqüentemen- 
te, a causalidade requer o uso de armazenamento adicional para guardar estados internos da rede. 
No que segue, requeremos que a adaptação de todos os vetores de peso seja baseada apenas nos 
valores corrente e passados dos sinais de erro. Podemos com isso imediatamente estabelecer 5 (л) 
para o neurônio / na camada de saída e assim adaptar os pesos do filtro sináptico nesta camada. 
Para a próxima camada anterior (t.e., uma camada oculta anterior à camada de saída), as restri- 
ções de causalidade implicam que, para o neurônio / nesta camada, а computação do gradiente 
local 


õn- p) = 900/9 pn, Arn PM, (13.47) 


é haseada apenas nos valores corrente e passados do vetor À ; isto é, 


A (n — p) = [8 (n — p), 8(n + 1— p)... 8(0)]" (13.48) 
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* A propagação retrógrada dos 8s permanece simétrica em relação à propagação direta dos 
estados. 

* A ordem dos cálculos é linear em relação ao número de pesos sinápticos da rede como na 
abordagem do gradiente instantâneo. 


A TLEN distribuida é naturalmente uma estrutura mais elaborada que a TLFN focada descrita na 
Seção 13.4. Além disso, o algoritmo de retropropagação temporal necessário para treinar a TLEN 
distribuida é computacionalmente mais custoso que o algoritmo de retropropagação padrão que é 
adequado para treinar a TLFN focada, Na análise final, a escolha de uma ou de outra destas duas 
abordagens é determinada pelo fato de a tarefa de processamento temporal que precisa ser solucio- 
nada ser relativa a um ambiente estacionário ou a um ambiente não-estacionário.” 


13.10 RESUMO E DISCUSSAO 


A necessidade de processamento temporal surge em em umerosas aplicações que incluem as se- 
guintes: 


Previsão e modelagem de séries temporais (Box e Jenkins, 1976; Haykin, 1996) 
Cancelamento de ruido, em que o objetivo é usar um sensor primário (fornecendo um sinal 
desejado contaminado com ruido) e um sensor de referência (fornecendo uma versão 
correlacionada do ruido) para cancelar o efeito do ruido (Widrow e Stearns, 1985; Haykin, 
1996) 

+  Equalizacáo adaptativa de um canal de comunicação desconhecido (Proakis, 1989; Haykin, 
1996) 

€ Controle adaptativo (Narendra e Annaswamy, 1989) 

+ ldentificacao de sistemas (Ljung, 1987) 


Já temos teorias hem-desenvolvidas para resolver estes problemas quando o sistema sob estudo ou 
o mecanismo fisico subjacente de interesse é linear; veja os livros citados acima. Entretanto, quan- 
do o sistema ou o mecanismo físico for não-linear, temos uma tarefa mais dificil em nossas mãos. É 
nestas situações que as redes neurais têm o potencial de fornecer uma solução viável e com 1580 
fazer uma diferença significativa na sua aplicação. 

No contexto das redes neurais, temos duas redes candidatas para o processamento temporal: 


e As redes alimentadas adiante atrasadas no tempo 
е As redes recorrentes 


Nos próximos dois capítulos são discutidas as redes recorrentes. Neste capítulo, descrevemos duas 
classes de redes alimentadas adiante atrasadas no tempo (TLFNsy a focada e a distribuida. Em uma 
TLEN focada, a memória de curto prazo está localizada inteiramente no terminal frontal de uma 
rede estática, o que a toma simples de projetar. O treinamento da TLEN focada é realizado utilizan- 
do-se о algoritmo de retropropagação padrão, assumindo que um perceptron de múltiplas camadas 
seja utilizado para implementar a rede neural estática. No teorema do mapeamento miope universal 
de Sandberg e Xu (1997, 1997), temos um teorema de existência no sentido de que fornece a 
justificativa matemática para a aproximação de um mapa miope arbitrário (1.е., um mapa causal 
com memória com decaimento uniforme) utilizando um encadeamento de dois blocos funcionais: 
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um banco de filtros lineares e uma rede neural estática. Uma estrutura assim pode ser implementada 
utilizando-se a TLFN focada, fornecendo com isso uma realização física deste teorema, 

A outra classe de TLFNs, isto é, as TLFNs distribuidas, se baseiam no uso de um modelo 
espaço-temporal de um neurônio, no caso, um filtro neural de múltiplas entradas. Este modelo 
utiliza filtros de resposta a impulso de duração finita (FIR) como filtros sinápticos. Como tal, o 
filtro neural de múltiplas entradas fornece um bloco funcional poderoso a seu modo particular para 
о processamento espaço-temporal de sinal, construido em torno de um único neurônio. Para treiná- 
lo, podemos utilizar o algoritmo do minimo quadrado médio (LMS) descrito no Capitulo 3. Entre- 
tanto, para treinar uma TLFN distribuída, precisamos de um algoritmo de aprendizagem elaborado 
exemplificado pelo algoritmo de retropropagação temporal descrito na Seção 13.9. Uma caracteris- 
tica distintiva das TLFNs distribuídas é o modo pelo qual a representação implícita do tempo é 
distribuida por toda a rede, advindo dai a habilidade de lidar com ambientes náo-estacionários (i.e, 
variáveis no tempo). Em uma TLFN focada, ao contrário, a representação implicita do tempo, por 
definição, está concentrada no terminal frontal da rede, o que, portanto, limita o seu uso prático para 
ambientes estacionários (1.e., invariantes no tempo). 


NOTAS E REFERÉNCIAS 


1. Para uma discussão sobre o papel do tempo no processamento neural, veja o artigo eclissi- 
co intitulado “Finding Structure in Time”, de Elman (1990). 

2. Em Hopfield (1995), é descrito um método para a representação explícita do tempo no 
processamento neural. Em particular, а informação analógica é representada utilizando-se 
a marcação de tempo dos potenciais de ação em relação a um padrão de atividade coletivo 
oscilatório progressivo, para o qual é citada evidência neurobiológica; os potenciais de 
ação são descritos no Capítulo 1. 

3,' Para uma revisão das estruturas de memória de curto prazo e seu papel no processamento 
temporal, veja Mozer (1994). 

4. Para uma discussão sobre sistemas hibridos de TDNN e HMM para o reconhecimento de 
voz, veja Bourlard e Morgan (1994), Katagiri e McDermott (1996) e Bengio (1996). 

Alguns hibridos de TDNN-HMM combinam o uso de uma TDNN codificadora de 
quadros (i.e, mapeando um “detetor de atributos acústicos” em um "código fonético”) е 
um HMM roteador de palavras/sentengas (1.c., mapeando “simbolos fonéticos" em "clas- 
ses de palavras/sentencas"), onde o codificador e o roteador são projetados separadamen- 
te. Em alguns hibridos TDNN-HMM avançados, a função de perda de erro quadrado para 
o sistema inteiro é usada de modo que uma perda relativa à contagem de erros de palavras/ 
sentenças pode ser minimizada. Um exemplo deste último esquema é a TONN de múlti- 
plos estados descrita em Haffner et al. (1991) e Haffner (1994). Um hibrido simples de 
módulos projetados separadamente causa frequentemente um descasamento entre os de- 
sempenhos de treinamento e de teste do sistema. A TDNN de múltiplos estados tem me- 
lhor desempenho neste quesito. 

Em um sentido fundamental, as redes recorrentes (discutidas no Capitulo 15) têm 
uma capacidade maior para modelar à estrutura temporal de sinais de voz que às redes 
“replicantes” como a TONN. Entretanto, como os sinais de voz são significativamente 
não-estacionários e não-lineares, mesmo as redes recorrentes podem por si só não ser 
suficientes para o reconhecimento preciso de voz. 

5. Para uma discussão sobre as origens do teorema do mapeamento miope universal, veja 
Sandberg (1991). 

6. Para uma derivação diagramática alternativa do algoritmo de retropropagação temporal, 
veja Wan e Beaufays (1996). 
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Em Wan (1994), o algoritmo de retropropagação temporal foi usado para realizar previsão 
não-linear sobre uma série temporal não-estacionária exibindo pulsações caóticas de um 
laser de NH, Esta série temporal particular fez parte da Competição de Séries Temporais 
do Santa Fe Institute que aconteceu nos Estados Unidos em 1992. A solução de Wan para 
esta tarefa de processamento temporal venceu a competição entre uma lista diversa de 
submissões que incluiam redes neurais recorrentes e não-recorrentes padrão, bem como 
muitas técnicas lineares tradicionais (Wan, 1994). O caos é discutido no Capítulo 14. 


PROBLEMAS 


Redes alimentadas adiante focadas atrasadas no tempo (TLFNs) 


13.1 


13.2 


13.3 


Resuma os principais atributos de uma TLFN focada usada para modelar um processo 
dinâmico não-linear. 

A TLFN focada representada na Fig. 13.10 utiliza uma memória de linha de atraso deriva- 
da para implementar uma memória de curto prazo. Quais são os beneficios e defeitos de 
uma TLFN focada que utiliza uma memória gama para implementar a memória de curto 
prazo? 

No Capitulo 2, descrevemos qualitativamente uma abordagem dinâmica para implementar 
um filtro adaptativo não-linear. O método envolve o uso de uma rede neural estática cuja 
estimulação provém da alimentação dos dados de entrada através de uma janela deslizante, 
A janela é movida na chegada de cada nova amostra de dados, com a amostra antiga dentro 
da janela sendo descartada para dar lugar à nova amostra. Discuta como uma TLFN focada 
pode ser utilizada para implementar esta forma de aprendizagem continua. 


Modelos espaço-temporais de um neurônio 


134 Considere um filtro neural cujo campo local induzido vin) é definido pela Eq. (13.16). 
Suponha que a função temporal hir) nesta equação seja substituida pelo impulso unitário 
deslocado 

hit) = (6 - x) 

onde t, é um atraso fixo. Descreva o modo pelo qual o filtro neural é modificado por esta 
substituição. 

13.5 Usando o algoritmo LMS, formule um algoritmo de aprendizagem para o filtro neural de 
multiplas entradas da Fig. 13.14. 

Retropropagação temporal 
13.6 A Figura P13.6 ilustra o uso de uma janela de tempo de forma gaussiamaz como um método 


para о processamento temporal (Bodenhausen e Waibel, 1991). A janela de tempo associada 
com a sinapse i do neurônio j é representada por (n, t. O ) onde 1, e o, são medidas de 
atraso de tempo € largura das janelas, respectivamente, como mostrado por 


| | ‚| 
T,,0,) 2 —— — 
Mm T,, 0.) fme, exp agi" Eu 


Com 1550, a saida do neurônio ; é modelada como 
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tes não-lineares de ordem crescente. Em geral, a estimação dos coeficientes de Volterra é 
considerada dificil, principalmente por causa de sua relação não-lincar com os dados. 
Neste problema, consideramos o exemplo simples 


хл} = vin) + Вит - Ln 2) 


A série temporal tem média zero, é não-correlacionada e, portanto, tem um espectro bran- 
co. Entretanto, as amostras da série temporal não são independentes entre si, e portanto 
pode-se construir um previsor de ordem mais elevada, À variância da saida do modelo é 
dada por 


с: =0 «^o; 


onde av é a variáncia do ruido branco. 

(a) Construa um perceptron de múltiplas camadas com uma camada de entrada de 6 nós, 
uma camada oculta de 16 neurônios e um único neurônio de saída. Uma memória de 
linha de atraso derivada é usada para alimentar a camada de entrada da rede. Os 
neurônios ocultos usam funções de ativação sigmóides limitadas go intervalo [0, 1], 
enquanto que o neurônio de saida opera como um combinador linear. A rede é treina- 
da com o algoritmo de retropropagação padrão tendo a seguinte descrição: 


Parâmetro da taxa de aprendizagem тү = 0,001 
Constante de momento a = 0,6 
Número total de amostras processadas 100.000 
Número de amostras por época [000 
Número total de épocas 100 


A variância do ruído branco а> é feita igual à unidade. Assim, com b = 0,5, constata- 
mos que a variância de salda do previsor é o) = 1,25. 

Calcule a curva de aprendizagem do previsor não-linear, com a vanância da saida 
do previsor хіт) traçada como uma função do número de épocas de amostras de trei- 
namento até 200 épocas. Para a préparação de cada época utilizada para realizar o 
treinamento, explore os seguintes dois modos: 

(i) A ordenação temporal da amostra de treinamento é mantida de uma época para a 
seguinte exatamente da mesma forma como é gerada. 

(ii) A ordenação da amostra de treinamento é tornada aleatória de um padrão (estado) 
para um outro. 

Além disso, utilize a validação cruzada (descrita no Capitulo 4) com um conjunto de vali- 

dação de 1000 amostras para monitorar à comportamento de aprendizagem do previsor. 

(b) Repita o experimento utilizando o algoritmo LMS projetado para realizar uma predi- 
ção sobre uma entrada de seis amostras. O parâmetro da taxa de aprendizagem do 
algoritmo é ajustado para rj = 107, 

(c) Repita o experimento inteiro para B = 1,0? = 2, e entäo para B = 2,0: = 5. 

Os resultados de cada experimento devem revelar que inicialmente o algoritmo de 

retropropagação e o algoritmo LMS seguem essencialmente um caminho similar, e então 

e algoritmo de retropropagação continua a melhorar, finalmente produzindo uma previsão 

de variância próxima ao valor prescrito de c 7. 
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limitados (Brogan, 1985), O entério de estabilidade BIBO é bem adequado para um sistema dinå- 
mico linear. Entretanto, é inütil aplicá-lo às redes neurais porque todos estes sistemas dinâmicos 
não-lincares são estáveis pelo critério BIBO devido à saturação da náo-linearidade incorporada na 
constituição de um neurônio, 

Quando falamos de estabilidade no contexto de um sistema dinâmico não-linear, normalmen- 
te pensamos em estabilidade no sentido de Lrapunov. Em uma célebre dissertação datada de 1892, 
Lyapunov (um matemático e engenheiro russo) apresentou os conceitos fundamentais da teoria da 
estabilidade conhecida como o método direto de Lyapunov.! Este método é largamente utilizado 
para análise da estabilidade de sistemas lineares e nào-lineares, tanto invariantes no tempo como 
variantes no tempo. Como tal, é diretamente aplicável à análise da estabilidade de redes neurais. De 
fato, muito do material apresentado neste capitulo diz respeito ao método direto de Lyapunov. En- 
tretanto, a sua aplicação não é uma tarefa fácil. 

O estudo da neurodinâmica pode seguir um entre dois caminhos, dependendo da aplicação de 
interesse: 


e A neurodinamica deterministica, na qual o modelo de rede neural tem um comportamento 
deterministico. Em termos matemáticos, é descrita por um conjunto de equações diferenci- 
uis nüo-lineares que definem a evolução exata do modelo como uma função do tempo 
(Grossberg, 1967; Cohen e Grossberg, 1983; Hopfield, 1984). 

* Aneurodinámica estatistica, na qual o modelo de rede neural é perturbado pela presença de 
ruido, Neste caso, devemos lidar com equacóes diferenciais ndo-lineares estocásticas, €x- 
pressando assim a solução em termos probabilisticos (Amari et al., 1972; Peretto, 1984; 
Amari, 1990). A combinação de não-linearidade com tratamento estocástico torna o assun- 
to mais dificil de tratar. 


Neste capitulo, restringimo-nos à neurodinàmica deterministica. 


Organização do Capítulo 


Neste capítulo, o material estã organizado em três partes. Na primeira parte do capítulo, consistindo 
das Seções 14.2 a 14.6, fomecemos um material introdutório. A Seção 14.2 introduz alguns concei- 
tos fundamentais sobre sistemas dinâmicos, seguidos por uma discussão da estabilidade de pontos 
de equilibrio, na Seção 14,3, Na Seção 14,4, descrevemos vários tipos de atratores que surgem no 
estudo de sistemas dinâmicos. Na Seção 14.5, revisitamos o modelo aditivo de um neurônio que foi 
derivado no Capitulo 13. Na Seção 14.6, discutimos a manipulação de atratores como um paradigma 
de redes neurais, 

A segunda parte do capitulo, consistindo das Seções 14.7 a 14.11, trata das memórias 
associativas. À Seção 14,7 é devotada a uma discussão detalhada dos modelos de Hopfield e do uso 
de modelos de Hopfield discretos como uma memória endereçável por conteúdo. A Seção 14.8 
apresenta um experimento computacional sobre esta aplicação da rede de Hopfield. Na Seção 14.9, 
apresentamos o teorema de Cohen-Grossberg para sistemas dinâmicos não-lineares que inclui a 
rede de Hopfield e outras memórias associativas como casos especiais. Na Seção 14.10, descreve- 
mos um outro modelo neurodinâmico conhecido como o modelo do estado cerebral em uma caixa 
que é bem adequado para a formação de agrupamentos. À Seção 14.11 apresenta um experimento 
computacional sobre este segundo modelo. 

A última parte do capítulo, consistindo das Seções 14.12 até 14.14, trata do tópico sobre caos. 
A Seção 14.12 discute as características invariantes de um processo caótico, seguida na Seção 14.13 
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por uma discussão do tópico da reconstrução dinâmica de um processo caótico, que é relacionado 
com o assunto da Seção anterior. Na Seção 14.14, é apresentado um experimento computacional 
sobre reconstrução dinâmica. 

O capítulo conclui com algumas considerações finais na Seção 14,15. 


14.2 SISTEMAS DINÂMICOS 


A fim de prosseguirmos com o estudo da neurodinámica, necessitamos de um modelo matemático 
para descrever a dinâmica de um sistema não-linear. Um modelo naturalmente muito adequado para 
este propósito é o modelo do espaço de estados. De acordo com este modelo, pensamos em termos 
de um conjunto de variaveis de estado cujos valores (em um instante particular qualquer de tempo) 
são assumidos como contendo informação suficiente para prever a evolução futura do sistema, 
Suponha que x (1), x.(1)..... x, (f) representem as variáveis de estado de um sistema dinámico näo- 
linear, onde o tempo continuo гё a varidvel independente e N é a ordem do sistema. Por convenién- 
cia de notação, estas variáveis de estado são agrupadas em um vetor N-por-1 x(£) chamado de vetor 
de estado do sistema. A dinâmica de uma grande classe de sistemas näo-lineares pode então ser 
especificada na forma de um sistema de equações diferenciais de primeira ordem escrevendo-se 
como segue: 


d 
709 = Fon», j= N (14.1) 


onde a função FG é, em geral, uma função não-linear de seu argumento. Podemos pôr este sistema 
de equações em uma forma compacta utilizando notação vetorial, como mostrado por 


d nn 
507 Fido) (14.2) 


onde a função não-linear F tem valor vetorial, com cada um de seus elementos operando sobre um 
elemento correspondente do vetor de estado: 


x(t) = [5,00, (DLT (14.3) 


Diz-se que um sistema dinâmico não-linear para o qual a função vetorial F(x(1)) não depende expli- 
citamente do tempo +, como na Eq. (14.2), é autónomo; caso contrário, ele é náo-autónomo.* Iremos 
nos preocupar apenas com os sistemas autônomos. 

Independentemente da forma exata da função não-linear F(-), o vetor de estado x(t) deve vari- 
ar com o tempo /; caso contrário, x(/) é constante e o sistema não é mais dinâmico, Podemos, 
portanto, definir formalmente um sistema dinâmico como segue: 


Um sistema dinámico é um sistema cujo estado varia com o tempo. 
Além disso, podemos pensar em dx/dt como um vetor “velocidade”, não no sentido físico mas em 


um sentido abstrato. Então, de acordo com a Eq. (14.2), podemos nos referir à função vetorial F(x) 
como um campo vetorial de velocidade ou simplesmente como campo vetorial 
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A presença de ruido demanda o uso de um tratamento probabilistico da atividade neural, adi- 
cionando um outro nível de complexidade à análise dos sistemas neurodinàmicos. Um tratamento 
detalhado da dinâmica estocástica está fora do escopo deste livro. O efeito do ruído é, portanto, 
ignorado no material que segue. 


O Modelo Aditivo 


Considere o modelo dinâmico, sem ruído, de um neurônio mostrado na Fig. 14.7, cuja base mate- 
mática foi discutida no Capítulo 13. Em termos físicos, os pesos sinápticos w, W sois W y represen- 
tam condutáncias, e as entradas respectivas x (t). x t)... x, dt) representam potenciais; N é o nime- 
ro de entradas, Estas entradas são aplicadas a uma função aditiva de corrente caracterizada como 


segue: 









dl in 
1*1 
xa 3 
Fonte de 
corrente 
ку} 
Saida 
a : Nio-lincaridade 
Entradas Sins л Watt) eoa : neural 
sinápticas 3 Am ох) 


comente 


PN M y хый} 
тг) © 


FIGURA 14,7 C modelo aditivo de um neurônio 


Baixa resistência de entrada 
Ganho de corrente unitário 
Alta resistência de saida 


Ela atua como um nó aditivo para as correntes de entrada, A corrente total fluindo em direção ao nó 
de entrada do elemento não-linear (função de ativação) na Fig. 14.7 é portanto 


У uox) I, 


onde o primeiro termo (somatório) se deve aos estímulos x). x,(0)...., x (1) agindo sobre os pesos 
sinápticos (condutáncias) tw, Wu... ur respectivamente, e o segundo termo se deve à fonte de 
corrente I representando um bias aplicado externamente, Considere que 247) represente о campo 
local induzido na entrada da função de ativação não-linear q(-). Podemos então expressar a comente 
total fluindo para fora do nó de entrada do elemento não-linear como segue: 
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vO 

R, ' di 
onde o primeiro termo se deve à resisténcia de fuga R, e o segundo termo se deve à capacitância de 
fuga C. Da lei das correntes de Kirchoff, sabemos que a corrente total entrando em qualquer nó de 
um circuito elétrico é zero. Aplicando a lei das correntes de Kirchoff ao nó de entrada da nào- 
linearidade da Fig. 14.7, obtemos 


du Pr 
SEE FANE m = = yx) 1, (14.14) 


O termo capacitivo C dv (iyidi no lado esquerdo da Eq. (14.14) ё o modo mais simples de acrescen- 
tar dinâmica (memória) ao modelo de um neurônio. Dado o campo local induzido v(t), podemos 
determinar a saída do neurônio j utilizando a relação não-linear 


х{д = plo (0) (14.15) 


O modelo RC descrito pela Eq. (14.14) é normalmente referido como o modelo aditivo; esta termi- 
nologia é usada para discriminar o modelo dos modelos multiplicativos (ou de derivação) onde ш, 
é dependente de x, (Grossberg, 1982). 

Uma característica distintiva do modelo aditivo descrito pela Eq. (14.14) é que o sinal x (1) 
aplicado ao neurônio / pela conexão com o neurônio i é uma função lentamente variável do tempo £. 
О modelo assim descrito constitui a base da neurodinamica clássica.* 

Para prosseguirmos, considere uma rede recorrente consistindo da interligação de N neurônios, 
onde se assume que cada neurónio tem o mesmo modelo matemático descrito nas Eqs. (14.14) e 
(14.15). Então, ignorando o tempo de atraso de propagação entre os neurônios, podemos definir a 
dinâmica da rede pelo seguinte sistema de equações diferenciais de primeira ordem acopladas: 


du (t) v (f) А 
C, s == R Èw, /=1,2.,®М (14.16) 








que tem а mesma forma matemática das equações de estado (14.1) е que resulta de uma reordenação 
simples de termos па Eq. (14.14). Assume-se que a função de ativação g(-) relacionando a saida xt) 
do neurônio j com o seu campo local induzido v Au) é uma função continua e portanto diferenciävel. 
Uma função de ativação normalmente utilizada é a função logística 


I 
= Trapo) і = 1,2,...,№ (14.17) 


Uma condição necessária рага que os algoritmos de aprendizagem descritos nas Seções 14.6 а 


14.11 existam € que a rede recorrente descrita pelas Eqs. (14.15) e (14.16) possua pontos fixos (i.e., 
atratores pontuais). 


730 Reeves NEURAIS 


Modelos Relacionados 


Para simplificar a exposição, assumimos que a constante de tempo T = RC, do neurônio f na Eq. 
(14.16) seja a mesma para todo j. Então, normalizando o tempo tem relação | ao valor comum desta 
constante de tempo e normalizando os ш, e / em relação а А, podemos rescrever o modelo da Eq. 
(14.16) como segue: 


dv (1) 
di 





=-p 0+ дум, Puel, j-12..N (14.18) 


onde também incorporamos a Eq. (14.15). A estrutura de atrator do sistema de equações diferenci- 
ais não-lineares de primeira ordem acopladas (14.18) é basicamente a mesma que aquela de um 
modelo intimamente relacionado descrito por (Pineda, 1987): 


dx (t) 


De Or уло |+ к, j=12.,N (14.19) 


No modelo aditivo descrito pela Eq. (14.18), os campos locais induzidos v (1), tfh- v, (0) dos 
neurônios individuais constituem o vetor de estado. Por outro lado, no modelo relacionado da Ea. 
(14.19), as saídas dos neurônios x (0), AE 4 X ff) constituem o vetor de estado. 

Estes dois modelos neurodinámicos são na verdade relacionados entre st por uma transforma- 
ção linear inversiva, Especificamente, multiplicando ambos os lados da Eq. (14.19) por w, soman- 


RR : M ge 
do em relação a j e então substituindo a transformação 


vw, (1)= Y wx) 


obtemos um modelo do tipo descrito pela Eq. (14.18) e assim constatamos que os termos de bias 
dos dois modelos são relacionados por 


{= SK, 
d 


O ponto importante a notar aqui é que os resultados que dizem respeito à estabilidade do modelo 
aditivo da Eq. (14.18) são aplicáveis ao modelo relativo à Eq. (14,19). 

A relação intima entre os dois modelos neurodinámicos descritos aqui é também ilustrada nos 
diagramas em blocos mostrados na Fig. 14.8. As partes a e b desta figura correspondem às formula- 
ções matriciais das Equações (14.18) e (14.19), respectivamente; W é a matriz de pesos sinápticos, 
vil) € o vetor dos campos locais induzidos no tempo ге x(t) é o vetor de saídas neuronais no tempo 
L.A presença de realimentagdo em ambos os modelos é claramente visível na Fig. 14.8. 


14.5 MANIPULACAO DE ATRATORES COMO 
UM PARADIGMA DE REDE RECORRENTE 


Quando o número de neurônios, N, é muito grande, o modelo neurodinâmico descrito pela Eq. 
(14.16) possui, exceto pelo efeito do ruído, as propriedades gerais delincadas anteriormente na 
Seção 14.5: muitos graus de liberdade, náo-linearidade e dissipação. Conseqüentemente, um mode 
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Para estudar a dinámica da rede de Hopfield, usamos o modelo neurodinâmico descrito na Eq. 
(14.16), que é baseado no modelo aditivo de um neurónio. 
Reconhecendo que x (f) = «(v (1)), podemos rescrever a Eq. (14.16) na forma 


d vit Ш 
С, кы. =- LI + Y won, Ја, М (14.20) 
f] iaj 


Para prosseguirmos com a discussão, fazemos as seguintes suposições: 
1. A matriz de pesos sinápticos é simétrica, como mostrado por 
ы = para todo i e j (14.21) 


2. Cada neurônio tem uma ativação não-linear particular — dai o uso de q (:) na Eq. (14.20). 
3. À inversa da função de ativação não-linear existe, e assim podemos escrever 


v=p (x) (14.22) 


Considere que a função sigmóide q (v) seja definida pela função tangente hiperbólica 








av) l-exp(-av) 

x=0q (uv) = an $È) = Pen" 14.23 
e) 2 | + expat) ) 

que tem uma inclinação de a/2 na origem como mostrado por 
а = Zu 14.24 
2 dolo, unm 

Daqui para frente, nós nos referimos a a, como o ganho do neurônio i. 
A relação inversa de entrada-saida da Eq. (14.22) pode assim ser rescrita na forma 
l 1-х 
v=y (x)=-—lo 

Фф, (х) P dE) (14.25) 


A forma padrão da relação inversa de entrada-saida para um neurônio de ganho unitário é definida 
por 


ox) -ю{1—®) (14.26) 


Podemos rescrever a Equação (14.25) em termos desta relação padrão como 


=] L4 -l 
ф; {x)= za (x) (14.27) 


A Figura 14.10a mostra um gráfico da não-linearidade sigmóide padrão q(v), e a Fig. 14.10b mos- 
tra o gráfico correspondente da náo-linearidade inversa q (x). 


Hidden page 


Hidden page 


736 Renes MEiRAIS 


dE 
= <ü exceto em um ponto fixo (14.34) 


A Equação (14.34) fornece a base рага o seguinte teorema: 


A função de energia (de Lyapunov) E de uma rede de Hopfield é uma função monotonamente decres- 
cente do tempo 


Conseqüentemente, a rede de Hopfield é global e assintoticamente estável; os pontos fixos 
atratores são os minimos da função de energia, e vice-versa. 


Relação entre os Estados Estáveis das Versões 
Discreta e Contínua do Modelo de Hopfield 


A rede de Hopfield pode ser operada em um modo continuo ou em um modo discreto, dependendo 
do modelo adotado para descrever os neurônios. O modo continuo de operação é baseado em um 
modelo aditivo, como descrito anteriormente. Por outro lado, o modo discreto de operação é base- 
ado no modelo de McCulloch-Pitts. Podemos facilmente estabelecer a relação entre os estados 
estáveis do modelo de Hopfield continuo e aqueles do modelo de Hopfield discreto correspondente 
redefinindo a relação de entrada-saida рага um neurônio tal que possamos satisfazer duas caracte- 
risticas simplificadoras: 


1. A saida de um neurónio tem os valores assintóticos 


+1 ай, = 
x | nds (14.35) 


1-1 para Y, = =% 


2. О ponto médio da função de ativação de um neurônio se encontra na origem, como mostrado 
por 


Ф(0) = () (14.36) 


Conseqüentemente, podemos fixar o bias I igual a zero para todo j. 

Na formulação da função de energia E para um modelo de Hopfield continuo, permite-se que 
os neurônios tenham auto-realimentações. Por outro lado, um modelo de Hopfield discreto nào 
deve ter auto-realimentações. Podemos, portanto, simplificar a nossa discussão fazendo w= Ü para 
todo em ambos os modelos. 


Com base nestas observações, podemos redefinir a função de energia de um modelo de Hopfield 
contínuo dada na Eq. (14.28) como segue: 


1 к А W 1 Ni E 
E=- Ушу, 0 Md (14.37) 
iml mel gal Ig tú 


im y 


A função inversa ф (х) é definida pela Eq. (14.27). Podemos assim rescrever a função de energia 
da Eq. (14.37) como segue: 
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Com o modelo de Hopfield utilizando o neurônio formal de McCulloch e Pitts (1943) como a 
sua unidade básica de processamento, cada um destes neurónios tem dois estados determinados 
pelo nivel do campo local induzido agindo sobre ele. O estado "ligado" ou "disparando" do neurónio 
i é representado pela saida x, = +1, e o estado “desligado” ou "quiescente" é representado por x, = 
-]. Para uma rede constituída de N neurônios, o estado da rede é assim definido pelo vetor 


Com x, = +1, o estado do neurônio / representa um bit de informação, e o vetor de estado N-por-l x 
representa uma palavra binária de N bits de informação. 
O campo local induzido v, do neurônio j é definido por 


р = Y аду, +b, (14.40) 


onde b é um bias fixo aplicado externamente ao neurônio у, Assim, o neurônio у modifica seu estado 
x, de acordo com a regra deterministica 


+1 sev, >0 
Т = 
> -] se v, <0 


Esta relação pode ser rescrita na forma compacta 
x = sinal[v.] 


onde “sinal” é a função sinal. O que acontece se v, for exatamente zero? Neste caso, a ação a ser 
realizada pode ser arbitrária. Por exemplo, podemos fazer x, = +1 se v, = 0. Entretanto, usaremos а 
seguinte convenção: sE a, for ZETO, O neurônio J permancce no estado anterior, independentemente 
se estiver ligado ou desligado. O significado desta suposição é que o diagrama de fluxo resultante é 
simétrico, como será ilustrado mais adiante. 
Hà duas fases de operação da rede de Hopfield discreta como uma memória endereçável por 
conteúdo, a fase de armazenamento e a fase de recuperação, como aqui descrito. 


1. Fase de Armazenamento. Suponha que desejemos armazenar um conjunto de vetores de 
dimensionalidade N (palavras binárias), representado por E и = 1, 2,..., M1. Denominamos 
estes M vetores como as memórias fundamentais, representando os padrões a serem memoriza- 
dos pela rede, Considere que $ represente o ¡-ésimo elemento da memória fundamental m 
onde a classe pt = 1, 2...., M. De acordo com a regra de armazenamento do produto externo, isto 


ё, a generalização do postulado de aprendizagem de Hebb, o peso sináptico do neurônio i para 
o neurônio ў é definido por 


Esta, (14.41) 
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limitação de amplitude. Consiste de um conjunto de neurônios altamente interhgados que realimentam 
a si próprios. Este modelo opera utilizando a realimentação positiva incorporada para amplificar 
um padrão de entrada até que todos os neurônios no modelo sejam levados à saturação. Desta 
forma, o modelo BSB pode ser visto como um dispositivo para identificar categorias, pois, dado um 
padrão de entrada analógico, fornece uma representação digital definida por um estado estável do 
modelo. 

Considere que W represente uma matriz de pesos simétrica cujos maiores autovalores têm 
componentes reais positivas, Considere que x(0) represente o vetor de estado inicial do modelo, 
representando um padrão de ativação de entrada. Assumindo que existam N neurônios no modelo, o 
vetor de estado do modelo tem dimensão №, e a matriz de pesos W é uma matriz N-por-N. O algoritmo 
BSB é então totalmente definido pelo seguinte par de equações: 


v(n) = хп) + DWx(n) (14.63) 


xin + 1) = piyin) (14.64) 


onde В é uma constante positiva pequena chamada de fator de realimentagdo e x(n) é o vetor de 
estado do modelo no tempo discreto n. A Figura 14.12a mostra um diagrama em blocos da combi- 
nacáo das Eqs. (14.63) e (14.64); o bloco rotulado como W representa uma rede neural linear com 
uma única camada, como mostrado na Fig. 14.21h. A função de ativação q é uma função linear por 
partes que opera sobre y (л), a j-ésima componente do vetor yin), como segue (veja a Fig. 14.22): 


Fator de Atrasos 
realimentação ira rds 


xi + 1) 





Matriz de Nãa-linearidade 


(a) 


Saias 
FIGURA 14.21 (a) Diagrama 

em blocos do modelo do estado 

cerebral am uma caixa (BSB). 

(b) Grato de fluxo de sinal do x, n) 
associador linear representado 

pela matriz de pescs W (bi 
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FIGURA 14.22 Função de ativação 
linear por partes utilizada no modelo 
BSB 





x (n D фу (п) 


+1 se у (п) > +1 


(14.65) 
-iy(n) se 15 y(n)s-«l 


=| se y, (n)<-1 


A Equação (14.65) restringe o vetor de estado do modelo BSB a se encontrar dentro de um cubo 
unitário de dimensionalidade N centrado na origem. 

Dessa forma, o algoritmo age como segue. Um padrão de ativação x(0) é apresentado na 
entrada do modelo BSB como um vetor de estado inicial, e a Eq. (14.63) é utilizada para calcular o 
vetor y(0). A Equação (14.64) é então usada para truncar y(0), obtendo-se o vetor de estado atualizado 
x(1). A seguir, x(1) é circulado através das Eqs. (14.63) e (14.64), obtendo-se com isso x(2). Este 
procedimento é repetido até o modelo BSB alcançar um estado estável representado por um vértice 
particular do hipercubo unitário. Intuitivamente, a realimentação positiva no modelo BSB faz com 
que o vetor de estado inicial x(0) cresça em comprimento (norma) euclidiano com o aumento do 
número de iterações até ele atingir uma parede da caixa (hipercubo unitário), deslizando então ao 
longo da parede e terminando eventualmente em um vértice estável da caixa, onde se mantém sendo 
“empurrado”, mas não pode sair da caixa (Kawamoto e Anderson, 1985), vindo dai o nome do 
modelo. 


А Função de Lyapunov do Modelo BSB 


O modelo BSB pode ser redefinido como um caso especial do modelo neurodinàmico descrito na 
Eq. (14.16) como segue (Grossberg, 1990). Para constatarmos isto, primeiro rescrevemos a j-&sima 
componente do algoritmo BSB descrito pelas Eqs. (14.63) e (14,64) na forma 
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Em um ambiente de vigilância por radar, não se conhece a priori as descrições detalhadas dos 
emissores operando no ambiente. Tipicamente, centenas de milhares de pulsos de radar são recebi- 
dos para o processamento em frações de segundo. Assim não há escassez de dados; o desafio é 
como encontrar sentido nos dados. O modelo BSB é capaz de ajudar aprendendo a estrutura de 
microondas do ambiente do radar através da sua propriedade inerente de formar agrupamentos. São 
formados agrupamentos em tomo dos atratores pontuais do modelo BSB (i.e., vértices estáveis do 
hipercubo unitário), com cada atrator pontual representando um emissor particular. O modelo BSB 
pode assim identificar pulsos recebidos como sendo produzidos por um emissor particular. 


14,11 EXPERIMENTO COMPUTACIONAL 11 


A Figura 14.23 apresenta os resultados de um experimento realizado sobre o modelo BSB contendo 
dois neurônios, A matriz de pesos dois-por-dois W é definida por 


[4035 -0,005 
“10,005 0,035 


que é simétrica, positivamente definida e que satisfaz a Eq. (14.75). 
As quatro partes diferentes da Fig. 14.23 correspondem a quatro configurações diferentes do 
estado inicial x(0), como segue: 


(a) x(0) -[ 0,1, 0,2) 
(b) x(00=[-0,2, 0,37" 
(c) x(0) = [-0,8, -0,4]7 
(d) x(0)=[ 0,6, 0,177 


As áreas sombreadas mostradas nesta figura são as quatro bacias de atração que caracterizam o 
modelo. A figura ilustra claramente que quando o estado inicial do modelo se encontra em uma 
bacia de atração particular, a dinâmica subjacente do modelo conduz a matriz de pesos Wim} com o 
aumento do número de iterações n, até que o estado da rede x(n) termine no atrator pontual fixo 
{ie um vértice do quadrado dois-por-dois) pertencente aquela bacia de atração. Um caso de parti- 
cular interesse é a trajetória mostrada na Fig. 14,23d: a condição inicial x(0) se encontra no primeiro 
quadrante, embora a trajetória termine no vértice (+ 1, —1) по quarto quadrante porque é aí que está 
o atrator pontual relativo àquela bacia de atração. 


14.12 ATRATORES ESTRANHOS E CAOS 


Até este ponto па nossa discussão sobre neurodinámica, concentramos nossa atenção sobre o tipo 
de comportamento exibido por sisternas dinâmicos nào-lineares caracterizados como atratores pon- 
"8 fixos. Nesta seção, consideramos uma outra classe de atratores chamados de atratores estra- 
nhos que caracterizam certos sistemas dinâmicos não-lineares de ordem maior que 2. 
Um atrator estranho exibe um comportamento caótico que é altamente complexo. O que torna 
o estudo de atratores estranhos e do caos particularmente interessante é o fato de que o sistema em 
questão é deterministico no sentido de que sua operação é governada por regras fixas, embora um 
sisterna destes com apenas poucos graus de liberdade possa exibir um comportamento tão compli- 
cado que parece ser aleatório. 
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(=1, *1) l, +1 (-1, +1} (+1, +1] 
(-1, –1) (*1,-1)  (-1,-1) (41, -1) 
(а) (b) 

[-1, +1} | (+1, +1) CL, +l} {+1, +1] 





(ci (d) 


FIGURA 14.23 Trajalórias para o experimento computacional sobre o modelo BSB; os resultados 
mostrados nas partes (a) até (d) correspondem a diferentes condições iniciais 


De fato, a caracteristica aleatória é fundamental no sentido de que as estatísticas de segunda ordem 
de uma série temporal caótica parecem indicar que ela é aleatória. Entretanto, diferentemente de um 
fenómeno realmente aleatório, um sistema caótico exibe um comportamento aleatório que nào de- 
saparece com a coleta de mais informação! Em princípio, o comportamento futuro de um sistema 
caótico é totalmente determinado pelo passado, mas na prática qualquer incerteza na escolha das 
condições iniciais, não importa quão pequena seja, cresce exponencialmente com o tempo. Conse- 
quentemente, embora o comportamento dinâmico de um sistema caótico seja previsível a curto 
prazo, é impossível se prever o comportamento a longo prazo do sistema. Uma série temporal 
caótica é, portanto, paradoxal no sentido de que a sua geração é governada por um sistema dinâmico 
deterministico, mas tem uma aparência aleatória. É este atributo de um fenômeno caótico que foi 
originalmente enfatizado por Lorenz com a descoberta de um atrator que leva seu nome (Lorenz, 
1963). 

Em um sistema dinâmico não-linear, diz-se que o sistema possui um atrator estranho, e neste 
caso o sistema é chamado de caótico quando as órbitas em um atrator com condições iniciais na sua 
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valores singulares, 471 
vetores singulares, 471 
Deconvolução cega, 579 
Dendritos, 11 
Derivadas ordenadas, 811 
Desigualdade de Cauchy-Schwarz, 166 
Desigualdade de Jensen, 427 
Diferenciação em relação a um vetor, 176-177 
Diferencial de Fréchet, 205-298 
Dilema bias'variância, 112 
erro de aproximativo, 113 
ero de estimativo, 113 
Dilema da estabilidade-plasticidade, 30 
Dimensão VC, 119-123 
definição da, 120 
limites da, 123, 156 
Dinâmica da descida do gradiente — subida do gradiente, 
777 
Diseriminante linear de Fisher, 227-228 
Distância de Mahalanobis, 52 
Distância euclidiana, 51 
Distribuição de Boltzmann, veja distribuição de Gibbs 
Distribuição de Gibbs, 594, 642, 647 
Distribuição fatorial, 538, 629 
Distribuição subgaussiana, 587 
Distribuição supergaussiana, 587 
Divergência (distância) de Kullback-Leihler, 528, 537- 
539 
decomposição por Pitágoras, 539 
relação com a informação mútua, 538 
Divergência sináptica, 41 
Dat product, veja Produto interno, 


Energia do erro, 77 

Energia livre, 593 

Entropia diferencial, 529 

Entropia marginal, 539 

Entropia relativa, veja Divergência de Kullback-Leibler 
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Entropia, no sentido da teoria da informação, 528 

Entropia, no sentido termodinâmico, 595 

Equação de Euler-Lagrange, 208-2599 

Espaço de caracteristicas, 225, 285, 36] 

Espaço de Hilbert, 297, 339 

Espaço do produto interno, 34] 

Espaço normalizado, 204, 339 

Espaço riemanniano, 585 

Espectrograma, 693 

Estabilidade, 722-724 
Teorema de Lyapunor, 724-725 

Estimação por máxima verosimilhanga para separação 
cega de fontes, 570-573 
relação com a análise de componentes independentes, 
272-313 

Estimação por máxima verosimilhança, 413 
função logaritmo da verosimilhança, 414 
propriedades da, 424 

Estimador por regressão de Nadaraya- Watson, 326, 519 

Estratégia de aprendizagem procura-então-converge, Läl 

Expansão de Edgeworth, 585 

Expansão de Gram-Charlier, 558, 582-585 


Fator Q, 659-660 

Fenómeno da festa de coquetel, 97, 135, 579 

Filtragem adaptativa, 144-146, 
processo adaptativo, 146 
processo de filtragem, 46. 

Filtro de Kalman, estendido desacoplado, 823-828 
complexidade computacional, 828-828 
mültiplas correntes, 846 
resumo, 826-828 
ruido de processo artificial. 826 

Filtro linear dos minimos quadrados, 152-155 

Filtros de Kalman, 177, 819-823 
erro de estimação filtrado, 823 
fator de conversão, 823 
fenómeno da divergência, E23 
inovações, 820 
matriz de covarläncta de erro, 821 
raiz quadrada, 820 
resumo, 821 

Filtros de resposta a impulsos de duração finita, 698 

Filtros de Wiener, 153-143 

Filtros neurais, 
distribuidoa, GFE 
focados, 694 

Forma a partir de sombras, 478 

Fórmula de Fletcher-Reeves, 265 

Fórmula de Hesteness-Stiefel, ДАП 

Fórmula de Polak-Ribiére, 265 

Função de ativação, 37, 195 
definição de, 37 
não-monótona, 363, 779, 785 
tipos de, 38-41, 195-196 

Função de crescimento, 119 
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Função de Green, 299 

Função de Heaviside, veja Função de limiar 

Função de limiar, 38 

Função de partição, 593 

Função de perda insensível a e, 372-373 

Função limitada saturado de um lado, 805 

Função linear por partes, 40, 755 

Função logistica, 40, 70, 195 

Função sigmótde, 40 

Função tangente hiperbólica como função de ativação, 
39, 196 

Funcional de песо empirico, 116 
consistência esinta do, 117 

Funcional de Tikhonov, 205 

Funções (distribuições) gaussianas multmwartadas, 304, 
327, 334 

Funções de base radial, 29] 
gaussianas, 29], 304, 327 
multiquádricas inversas, 29] 
multiquédricas, 291 


Caimão, 60 
Gamüo-DT, 641 
Generalizacáo, 28, 50, 232-234 
tamanho do conjunto de treinamento para, 234 
Gradiente natural, >65, 555 
Gradiente relativo, veja Gradiente natural 
Grafo arquiletural, dd 
Grafo de fluxo de sinal, dl 
regras básicas do, 41 


Hiperplano ótimo, 341 
método quadrático para computar o, 353-357, 357 
propriedades estatísticas do, 357 

Hipótese de Barlow, 547 

Hipótese de Church- Гоги, 804 


Identidade de Green, 393 

Identificação de sistemas, 146, 710, 834-857 
modelo de entrada-saida, 816-837 
modelo de espaço de estados, 834-3136 


Igualdade de Woodbury, veja Lema da inversão matricial 


Independência estatística, 537 
infimo, 114 
Infirmação mutua, 534 
para aprendizagem auto-organtzada, 540 
propriedades da, $15 
Informon, 582 
Inibição lateral, 84 
Inteligência artificial, 59 
Iteragäo de politica, (649-641 
aproximada, 663-671 
Iteragáo de valor, 661-666 


Lema da inversão matricial, 351 
Lema de Sauer, 125, 130 


Limite de Chernoff, 220 


Maldição da dimenstonalidade, 237-238, 321-322, 666 
Mapa de identidade, veja Replicador 
Mapas auto-organizaveis (modelo de Коһопеп), 486 
adaptação sindptica, 491, 518 
algoritmo de conscióncia, 521 
algoritmo normalizado, 490, 524 
casamento de densidade, 500 
fase de convergência, 493 
[use de ordenação, 492 
função de vizinhança, 490 
ordenação topológica, 490 
processo competitivo do, 488, 518 
processo cooperativo, 48% 
propricdades dos, 494 
resume, 403 
versão por lote, 400 
Mapas comtextunis, 514 
Mapas corticais (computacionals), 35, 434, 517 
Mapas semánticos, veja Mapas contextuais 
Mapas topográficos, 34 
Máquina de Boltzmann, 610-617 
deterministica, 626-627 
regra de aprendizagem рага, 86-86, 614-616 
Maquina de Helmholtz, 622-623 
Máquina de Turing, 804 
Máquinas de comitê, 385 
Máquinas de vetor de suporte, 349 
comparação com a aprendizagem por 
retropropagagáo, 370-372 
projeto ótimo das, 164 
reconhecimento de padrões pelas, 36] 
regressão, 373 


Máquinas estocásticas hascadas па mecânica estatistica, 


501-644 
Máquinas inteligentes, 849-853 
para controle, 851-852 
para processamento de sinais, 852-853 
para reconhecimento de padrões, 850-851 
Matriz de correlação, 153, 434 
Matriz de Green, 302 
Matriz de influénein, 315 
Matriz de informação de Fisher, 424 
Matriz de interpolação, 291 
Matriz de núcleo, 473 
Matriz definida positivamente, definição, 177 
Matriz hessiana, 150, 230 
computação da inversa da, 250-25] 
Matriz jacobiana, 151, 230, 721 
computação da, 228-230 
Máxima estimação a posteriori (MAP), 425 
Mecânica estatística, 592-505 
Memória acessivel por conteúdo, veja modelo de 
Hapficld 
Memória de linha de atraso derivada, 688-689 


Memória gama, 689-691 
Memória por matriz de comelação, 104-108 
relação com o algoritmo LMS, 179 
Memória, 100 
associativa, 92 
de curto prazo, 100 
de longo prazo, 100 
distribuida, 100 
interferência cruzada (crosstalk), LOG 
per matriz de correlação, 104-108 
recordação, 105 
Memória, estruturas de curto prazo, 686-89] 
profundidade da memória, 658 
resolução da memória, 644 
Método da decida mais ingreme, veja Técnicas de 
otimização, irrestritas 
Método da direção conjugada, 264 
Método da máxima entropia para separação cega de 
fontes, 372-578 
algoritmo de aprendizagem, 577-578 
equivalência com a máxima verosimilhanga, 576 
Método de aprendizagem por média de ensemble, 387, 
423 
Método de Gauss-Newton, veja Técnicas de otimização, 
irrestritas 
Método de Newton, 261 
Método de quase-Newton, 268 
Método do gradiente conjugado, 262-263 
busca em linha, 266-268 
comparação com o método quase-Newton, 270-271 
fórmula de Fletcher-Reeves, 265 
fórmula de Polak-Ribiére, 265 
método de Brent, 268 
residual, 265 
resumo do, 269 
Método dos multiplicadores de Lagrange, 249, 354, 331 
condições de Kuhn-Tucker, 354 
problema dual, 354, 359, 375 
problema primordial, 354, 359, 375 
teorema da dualidade, 355 
Minimização do risco empírico, principio da, 117 
Minimização estrutural de risco, 126-127 
Minimos globais, definição, 275 
Minimos locais, definição, 275 
Minimos quadrados iterativamente ponderados, 425 
Modelo (rede) de Hopfield, 730-749 
capacidade de armazenamento, 746-749 
cenário de energia, 738 
estados de mistura, 754 
estados de vidro de spin, 754 
estados espúrios, 745-746 
fase de armazenamento da aprendizagem, 740-74] 
fase de recuperação (recordação), 741-742 
função de energia do, 733 
memórias fundamentais (estados protótipos), 739 
memórias fundamentais inversas, 752-754 
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parâmetro de carga, 747 
regra de aprendizagem para, 742 
relação sinal-rubdo, 747 
Modelo aditivo, 701-702, 727-728 
Modelo auto-regressivo, 56, 511 
Modelo de aprendizagem fraca, 392 
Modelo de espaço de estados da rede recorrente, 794-802 
Modelo de Linsker do sistema visual dos mamiferos, 432 
Modelo de Little, 779 
Modelo de McCulloch-Pitts, 40, 63, L6] 
Modelo de mistura de especialistas (ME), 402 
Modelo de mistura gaussiano associativo, 401 
modelo de mistura de especialistas (ME), 402 
modelo probabilistico de geração, 401 
Modelo de mistura hicrárquica de especialistas (МНЕ), 
406 
estratégias de aprendizagem para, 415 
Modelo de Willshaw-von der Malsburg, 486 
Modelo do estado cerebral em uma caixa (BSB, буйн» 
state-In-a-hox), 755-762 
agrupamentos, 760-762 
dinâmica do, 759-760 
função de Lyapunov do, 758-759 
rede de redes usando, 775 
Modelo provavelmente aproximadamente correto, 
(FAC), 127-131, 391 
Modelos de redes neurais baseados na teoria da informa- 
ção, 525 
Modelos de Volterra, 819 
Modelos ocultos de Markov, 644, 003 
Modularidade, definição 386 
Monómios, 286 
Morcego ecolocalizador, 27, 58 


Nats, 527 
Navalha de Occam, 232, 397 
Neocognitron, 134, 277, 854 
МЕТЕ, 603-692 
Neurocomputagio atencional, 99, 852, 854 
Neurênio integra-e-dispara, 778-779 
Neurônio oculta, 46, läd 
Neurónio vencedor-leva-tudo, 83 
Neurónio, 33 

modelos de, 36, 4] 
Norma ponderada, 10% 
Núcleo do produto interno, 362, 473 
Número condicionante, 158 


Operador de atraso unitário, 45 
Operador pseudodiferencial, 305 
Ommização combinatória, 608 

analogia com a fisica estatística, 608 


Perceptron de Rosenblatt, veja Perceptron 
Perceptron, 161-169 
relação com o classificador bayesiano, 169-173 
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Perceptrons de múltiplas camadas, 183 
detecção de caracteristicas dos, 225, 253 
espaço de caracteristicas dos, 275 
limites para o erro de aproximação dos, 235-237 
recorrentes, 791-792 
Plasticidade, 27 
Poda, veja Técnicas de poda de rede 
Política, 654 
Ponto de sela, 721 
Potenciacio de longo prazo (LTP), 133 
Potencial de ativação, veja campo local induzido 
Previsão, 97, 696, 828 
Principio da formação de mapa topográfico, 435 
Principio da máxima entropia (Max Ent), 531 
Principio da máxima informação mútua (Informax), $25, 
541-346 
modelo para sistemas perceptivos, 247-548 
relação com a redução de redundància, 5246-548 
Princípio da minima energia livre, 595 
Principio da minima redundância, 447 
Principio da ortegenalidade, 110, 440 
Principio do balanço detalhado, 602-603 
Probabilidade de classificação correta, 218 
Probabilidade de erro (de classificação incorreta), 218 
Probabilidade multinomial, 404 
Problema da diligência, 664-666, 676-670 
Problema da extinção de gradientes, 831-834 
Problema de atribuição de crédito, £7, 191, 631 
Problema do autovalor, 435 
Problema do caixeiro viajante, 645-646 
solução usando o modelo de Hopfield, 776-777 
Problema do KOR, 202-205, 278, 287-288, 311-314, 
367-159 
Problemas inversos, 293 
comiições para boa formulação, 294 
Problemas NP-completos, 180 
Processamento de arranjo de antenas, ACI para, 556 
Processamento temporal, 686-714 
arquiteturas de rede para, 691-693 
Procestos de decisão markovianos, 652-654 
Produto interna, 51 
Programação dinâmica, 65 | 
algoritmo de programação dinámica, 656-657 
assincrona, 55] 
equação de otimização de Bellman, 657-459 
método de Gauss-Seidel, 6&1 
principio da otimização, 655-656 
Programação neurodinámica, 651-633 
política de, 654 
problemas de horizonte finito, 634 
problemas de horizonte infinito, 634 
relação com a aprendizagem por reforço, 651 
Programação quadrática, 378 
bibliotecas comercias sobre, 1&1 
Propriedade equivariante, 564-565 
Pseudo-inversa, 153, 314 





Pseudotemperatura, 41, 593 


Quantização vetorial merárquica, 510 
Quantização vetorial por aprendizagem, 507 


Razão de verosimilhanga, 171, 215 
razão de verosimilhanga logaritmica, 172 
Realimentagdo, 40, 44 
global, 715 
local, 715, 844 
Reconstrução dinâmica, 768-772 
atraso de inserção, 760 
método dos falsos vizinhos mais próximos, 770 
previsão recursiva, 770-771 
teorema de lakens, 769 
Recozimento deterministico, 634-640 
agrupamento, 634-639 
analogia com o algoritmo MWE, 640 
classificação de padrões, 644 
modelos ocultos de Markov, 644 
quantização vetorial, 644 
regressão, бй 
Recozimento simulado, 606-608 
otimizagio combinatória, 608-608 
roteiro de recozimento, 607-608 
Rede de regularizagáo, 305-307 
Rede excitatória-1nibitória, veja dinámica de descida de 
gradiente — subida de gradiente 
Rede neural de atrasos de tempo, 692-693 
Redes (neurais) recorrentes, 44, 49, 778-770 
Redes alimentadas adiante atrasadas no tempo, 6£6, 710 
distribuidas, 702 
focadas, G9 1-536 
teorema do mapeamento miope universal, 696-697 
Redes alimentadas adiante, 46, 183, 283 
com múltiplas camadas, dh 
de camada única, dé 
parcialmente conectadas, 45 
totalmente conectadas, dE 
Redes comolutivas, 34, 271-773 
Redes de crença sigmóide, 617-622 
deterministicas, 627-6534 
distribuição de campo médio das, 628 
cquação de campo médio, 631 
regra de aprendizagem das, 619-67] 
Redes de função de base radial, 283 
comparação com o perceptron de múltiplas camadas, 
in 
complexidade computacional das, 322 
complexidade de amostra das, 322 
estratégias de aprendizagem das, 328-335 
generalizadas, 307-309 
normalizadas, 326 
propriedades aproximativas das, 320-321 
relação com a regressão de núcleo das, 323 
Redes neurais, 


adaptabilidade das, 29 
analogia neurobiológica, 20 
arquiteturas de, dé 
definição de, 28, 4% 
inserção de imeanâncias nas, 54 
mapeamento de entrada-saida das, 29 
propriedades das, 2E 
tolerância a falhas das, 30 
Redes recorrentes, dirigidas dinamicamente, 787-847 
algoritmos de aprendizagem, 805-808 
arquiteturas de rede das, 798-794 
auto-regressivas n&o-lineares com entradas exógenas, 
802-804 
controlabilidade e observalidade das, 796-797 
controlabilidade local das, 798-800 
extinção de gradientes, 331-534 
beuristicas das, 208 
modelo de entrada-saida, 788-790 
modelo de espaço de estados, 790-791, 794-802 
modelos de segunda ordem, 792-794 
observalidade local das, 800-802 
perceptrons de múltiples camadas recorrentes, 791- 
792 
poder computacional das, 804-805 
realimentação local das, 844 
Redução de dimensionalidade, 439 
Redundância, 431, 546 
medida de, 545 
Reflexo vestibulo-ocular, 31 
Reforço, 391,423 
AdaBoost, 394 
método por filtragem, 391 
método por ponderação, 391 
método por subamostragem, 391 
Registros biomédicos, АСТ para, 546 
Regra de preservação de informação, 408 
Regra do produto externa, veja Aprendizagem hebbiana 
Regressão, 
de aresta, 342 
não-linear, 110, 314 
mücleo de, 223-128 


Regularização de Tikhonov-Philips, veja Teoria da regu- 


larizagdo 

Replicador, 253-254, 275-277 

Retina, 2] 

Retropropagação através do tempo, 808-812 
complexidade computacional, 828 
considerações práticas, 811-812 
derivada ordenada, 811-812 
por época, 808-811 
truncada, 811-811 

Robustez, 177, 256 





Saliéncia, 249 
Sensibilidade, 229, 256 
Separabilidade linear, 164 
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Separação cega de sinais (fonte), 97, 555 
Sinapse anti-hebbiana, 81 
Sinapse hebbiana, EQ 
propriedades da, #0 
Sinapse, 12 
sinapse quimica, 12 
Sistemas difusos (fuzzy), 852 
Sistemas dinâmicos, 217-720 
condição de Lipshitz, 719-720 
definição de, 717 
espaço de estados, 717-710 
retrato de estados (fase), 718 
Sistemas hibridos, 62, 852 
Sistemas neuromóriicos, 31 
Solução da norma minima, veja Pseudo-inversa 
Splines, 
de folha fina, 343 
Suavidade, medida de, 341 
Suavizagao, 97 
Superficie de desempenho de erro, 38 
Superficie de regressão, 406 
Supremo, 116 


Tarefas de aprendizagem, 91 
aproximação de função, 93 
associação de padres, 9T 
controle, 95 
filtragem, 26 
formação de feixe, GE 
reconhecimento de padres, 92 
Técnica de deflação de Hotelling, 455 
Técnicas de otimização irrestritas, 147-152 
método da descida mais Ingreme, 147-148 
método de Gnuss-Newton, 150-152 
método de Newton, 148-150 
métodos quase- Newton, 268 
Técnicas de poda de rede, 244-252 
cirurgião cerebral ótimo, 248-232 
dano cerebral ótimo, 248 
decaimento de pesos, 246 
eliminação de pesos 
regularização da complexidade, 245-748 
suavizador aproximativo, 247-248 
Tempo, GES 
representação explicita do, 635 
representação implicita do, 685 
Teorema (algoritmo) de convergéncia do perceptron, 
resumo, 168 
Teorema da aproximação universal, 254-215, 254 
Teorema da estabilidade assintótica, 444 
Teorema da interpolação, 290-291 
Teorema da representação de Riesz, 297 
Teorema de Cohen-Grossberg, 754-755, 758 
Teorema de Cover sobre a separabilidade de padrões, 
284-288 
Teorema de Darmois, 33% 
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As redes neurais artificiais têm raízes em disciplinas como 
neurociência, matemática, estatística, fisica, ciência da computação 
e engenharia. Suas aplicações podem ser encontradas em campos 

tão diversos quanto modelagem, análise de séries temporais, 
reconhecimento de padrões, processamento de sinais e controle, 

Este уто fornece as bases para o entendimento das redes 

neurais, reconhecendo a natureza multidisciplinar do tema. 

O material é acompanhado de exemplos, experimentos 
computacionais, problemas no final de cada capitulo e bibliografia. 
Conta ainda com duas páginas de apoio na Web 


bookman 
EMPRESA DO GRUPO ARTMED 
"wanw.bookmarn. com.br 





